La gestión de soluciones de red a escala crea inherentemente desafíos operativos, de implementación y de rendimiento.
En Meta, encontramos que estos problemas se dividen en términos generales en tres temas:
1.) Red del centro de datos: Durante la última década, en el frente físico, hemos visto el surgimiento de hardware específico del proveedor que viene con conjuntos de características y arquitecturas heterogéneas (como la arquitectura sin bloqueo). En términos de software, los requisitos de escalabilidad y capacidad (del orden de MW por edificio físico) han aumentado significativamente para administrar arquitecturas de hiperescala como la nuestra. Además, el cambio al metaverso ha llevado a un aumento significativo en las cargas de trabajo de IA, HPC y aprendizaje automático que requieren un gran ancho de banda de red y potencia de cómputo y crean desafíos para que las cargas de trabajo web, heredadas y modernas existentes coexistan de manera segura.
2.) Optimización de WAN: Los últimos años han visto un rápido crecimiento en la creación de contenido, impulsado por una creciente economía de creadores y trabajo híbrido y remoto, lo que ha resultado en requisitos de ancho de banda enorme y ancho de banda de red troncal.
3.) Mejorar la eficiencia operativa y el rendimiento: Las métricas de red tradicionales, como la pérdida de paquetes y el jitter, son demasiado específicas de la red/del host y no proporcionan una correlación entre el comportamiento de la aplicación y el rendimiento de la red.
En la reciente conferencia virtual Networking@Scale en noviembre de 2022, los ingenieros de Meta discutieron estos problemas y presentaron soluciones. sobre estos temas que ayudan mejore el rendimiento de la red más que nunca para las personas que utilizan nuestra familia de aplicaciones:
Diseñe, implemente y opere conmutadores de red internos a gran escala.
Srikrishna Khare, ingeniero de software, Meta
Srikrishna Gopu, ingeniero de software, Meta
FBOSS es uno de los servicios más grandes en Meta y es compatible con la red Meta. Los anfitriones Srikrishna Khare y Srikrishna Gopa hablan sobre sus experiencias en el diseño, desarrollo y operación de FBOSS: software patentado diseñado para administrar y respaldar el conjunto de características requeridas para los conmutadores de centros de datos de un importante proveedor de contenido de Internet. Presentan las ideas clave detrás del modelo FBOSS que les ayudó a construir una red estable y escalable.
La presentación también contó con Switch Abstraction Interface (EFS) que define una API independiente del proveedor para reenviar la programación ASIC. La nueva implementación de FBOSS se implementó en masa en una empresa existente y también se utilizó para incorporar un nuevo proveedor de conmutadores en la infraestructura Meta.
Conectando con el planeta: escalando la red óptica global Meta
Stephen Grubb, ingeniero óptico, Meta
Joseph Kakande, ingeniero de redes, Meta
Steven Grubb y Joseph Kakande hablan sobre la vasta red global de fibra óptica que está construyendo y administrando BBE (Backbone Engineering, que planifica, diseña, construye y mantiene una red global que conecta centros de datos (DC) y puntos de presencia Meta). (POP) a Internet), con especial atención a los sistemas submarinos de fibra óptica que se están construyendo para conectar el mundo.
Esta actuación demuestra Bifrost y eco, que son las primeras redes en conectar directamente EE. UU. y Singapur y admitirán SGA, el primer centro de datos de Meta en Asia Pacífico. También discutieron la gran 2África el proyecto, que es la red de cable submarino más grande del mundo y puede conectar al mayor número de personas, 3 mil millones de personas. La charla también analiza la conexión de nuestras redes submarinas a nuestra red troncal terrestre y describe cómo Meta diseña y construye una jerarquía de capa de transporte óptico construida sobre estas rutas de fibra óptica. También discutirán conjuntos de software patentados, soluciones de monitoreo y aprovisionamiento distribuido para esta flota global de equipos y enfoques para diagnosticar y solucionar fallas de red.
Milisampler: análisis detallado del tráfico de red
Yimeng Zhao, investigador asociado, Meta
Yimeng Zhao habla sobre mejorar radicalmente la visibilidad, el monitoreo y el diagnóstico de la red de producción planetaria de Meta a través de innovaciones en las herramientas de medición de tráfico.
La gestión de redes de centros de datos de baja pérdida requiere comprender los patrones de tráfico, especialmente las ráfagas de tráfico, con granularidad temporal precisa. Sin embargo, monitorear el tráfico con granularidad de milisegundos de una flota completa es un desafío. Para obtener más información sobre nuestra red de producción, Millisampler, una herramienta liviana de medición de tráfico basada en BPF que funciona con gran granularidad a lo largo del tiempo, se creó e implementó en todos los servidores de la flota completa en Meta para un monitoreo continuo.
Los datos del milimuestreador nos permiten caracterizar microrráfagas con detalles de milisegundos o incluso microsegundos. Y la recopilación simultánea de datos le permite analizar cómo interactúan los paquetes sincronizados en los búferes de rack. Esta charla habla sobre las experiencias de diseño, implementación y fabricación con Millisampler y algunas observaciones interesantes de los datos de Millisampler.
SLO de red: saber cuándo la red es un impedimento para el rendimiento de la aplicación
Brandon Schlinker, Investigador, Meta
Sharad Jaiswal, ingeniero de optimización, Meta
En Meta, deberíamos poder determinar fácilmente si las condiciones de la red son responsables de los casos de baja calidad de experiencia (QoE), como la carga lenta de imágenes o la congelación de videos durante la reproducción. Brandon Schlinker y Sharad Jaiswal del equipo Meta Traffic Engineering introdujeron el concepto de SLO de red, que se puede considerar como los «requisitos mínimos de red» de un producto para una buena QoE. Describen un enfoque y un esquema para obtener SLO de red utilizando una combinación de herramientas estadísticas y sus aplicaciones prácticas. También describieron enfoques para evaluar el cumplimiento de SLO de red y destacaron estudios de casos en los que estos SLO ayudaron a clasificar regresiones en QoE, identificar brechas en el rendimiento de Meta Edge Network e identificar ineficiencias en el uso de la red de productos.
Mejora de la consistencia del enrutamiento L4 en Meta
Aman Sharma, ingeniero de software, Meta
Andrey Vasilevsky, ingeniero de software, Meta
Aman Sharma y Andrey Vasilevskiy hablan sobre el diseño, el desarrollo, los casos de uso y las mejoras del balanceo de carga de capa 4 a través del desarrollo de una herramienta llamada Shiv. Cuando se agrega o elimina una gran cantidad de backends, se produce una reasignación en las tablas de enrutamiento de la red, lo que da como resultado que se interrumpan las conexiones de un extremo a otro y se degrade la experiencia del usuario (por ejemplo, el video se congela).
Shiv enruta los paquetes a los backends utilizando un hash de cinco tuplas negociado del paquete (a saber, dirección IP de origen, dirección IP de destino, puerto de origen, puerto de destino y protocolo). El trabajo de Shiv es enrutar paquetes para una conexión (todos ellos tienen la misma tupla de 5) al mismo servidor durante la duración de la conexión y evitar la caída de la conexión.