- Le mostramos cómo Meta ofrece audio de alta calidad con el códec de audio xHE-AAC.
- xHE-AAC ya se está implementando en Facebook e Instagram para proporcionar audio mejorado para funciones como Reels e Stories.
En Meta, atendemos todos los casos de uso de medios imaginables para miles de millones de personas en todo el mundo, desde contenido breve generado por usuarios como Bobinashasta prima vídeo bajo demanda (VOD) Y transmisiones en vivo. Con eso en mente, necesitamos un códec de audio de próxima generación que admita una variedad de puntos operativos con una eficiencia de compresión superior y funciones de audio de nivel de sistema de última generación.
Para satisfacer estas necesidades ahora y en el futuro, Meta utiliza xHE-AAC como un medio para ofrecer audio de alta calidad a escala.
Beneficios de xHE-AAC
xHE-AAC es el miembro más reciente de la familia de códecs de audio MPEG AAC. Instituto Fraunhofer de Circuitos Integrados IIS desempeñó un papel importante en el desarrollo del estándar xHE-AAC y MPEG-D DRC.
Hoy, xHE-AAC ya ofrece una calidad de sonido superior en Facebook e Instagram, incluidos Bobinas Y Cuentos – y tiene una serie de propiedades valiosas.
Control del volumen
CON cientos de millones de descargas por día a través de Facebook e Instagramobtenemos pistas de audio con niveles de volumen desde silencio hasta escala completa y todo lo demás.
Cuando las personas reproducen estos videos en secuencia, algunos sonidos pueden percibirse como demasiado altos o demasiado bajos. Esto cansa al oyente de tener que ajustar constantemente el volumen.
El sistema de control de volumen xHE-AAC integrado elimina la variabilidad del volumen al preservar cuidadosamente la intención del creador, llevando el volumen promedio de todas las sesiones al mismo nivel objetivo y controlando el rango dinámico de cada sesión de acuerdo con el entorno de reproducción.
En lugar de grabar un nivel objetivo específico y un perfil de compresión de rango dinámico (DRC) durante la codificación, xHE-AAC nos permite dejar intactas las características de audio originales y delegar el procesamiento de control de volumen al cliente a través de metadatos de volumen para una reproducción de audio óptima basada en el contexto.
Como resultado del control de volumen xHE-AAC, las personas pueden pasar más tiempo inmersas en su contenido favorito y menos tiempo jugando con el control de volumen.
Audio con tasa de bits adaptable
La mayoría de las personas que usan nuestras aplicaciones consumen medios en dispositivos móviles y esperan la mejor calidad de audio sin interrupciones. Este es un problema para la transmisión de medios porque la calidad de la conexión depende del dispositivo móvil y puede resultar en una experiencia de usuario muy desigual.
Para optimizar la calidad bajo restricciones de ancho de banda dinámico, producimos varias calidades de video y audio para cumplir con diferentes condiciones de red durante la reproducción. Aunque producimos varias pistas de audio, históricamente solo hemos utilizado tasa de bits adaptativa (ABR) algoritmos para cambiar la calidad del video durante la reproducción, porque es difícil incluir audio con una tasa de bits adaptativa sin comprometer la calidad al cambiar de banda.
Para permitir un audio ABR fluido, xHE-AAC introduce el concepto de fotogramas de reproducción instantánea (IPF), que contienen todos los datos necesarios para comenzar a reproducir una nueva pista de audio sin depender de los datos de otros fotogramas. Al colocar un IPF al comienzo de cada segmento de transmisión adaptativa dinámica sobre HTTP (DASH) y ecualizar la duración de los segmentos de cada pista, podemos cambiar sin problemas entre pistas de audio durante la reproducción para garantizar la mejor calidad de audio en cualquier ancho de banda disponible y evitar la repetición. establos.
Desde el lanzamiento de Audio ABR en Facebook para Android, hemos podido mejorar la experiencia del usuario al reducir la cantidad de sesiones en las que se detiene la reproducción.
Cómo implementamos xHE-AAC
Generamos flujos de bits xHE-AAC utilizando el codificador SDK proporcionado por el Instituto Fraunhofer para circuitos integrados IIS y luego preparamos los archivos de audio resultantes para la transmisión DASH utilizando shaka-packager. El modo de codificación de dos pasadas del codificador xHE-AAC se utiliza para medir la envolvente de sonoridad de entrada y la sonoridad media del programa en la primera pasada y realizar la compresión de datos de audio real en la segunda pasada. Como beneficio adicional, la codificación de dos pasos nos permite usar el control de rango de sonoridad DRC (LRAC), que reduce los artefactos de bombeo que de otro modo se introducen en los algoritmos DRC de un solo paso.
Para preparar el conjunto de adaptación de audio xHE-AAC para la entrega de ABR, se insertan IPF a intervalos de tiempo constantes, los parámetros de configuración de audio, como la frecuencia de muestreo y la configuración del canal, permanecen constantes, y se seleccionan ID de flujo únicos para cada pista en el conjunto de adaptación de audio.
Durante la reproducción, ajustamos el sonido de acuerdo con el entorno de escucha ajustando el nivel de volumen objetivo y el tipo de efecto DRC según el contexto, y gracias a los metadatos de volumen incorporados, podemos adaptar un único flujo de bits xHE-AAC a diferentes sonidos. casos de uso de consumo, desde auriculares hasta altavoces de dispositivos y varios niveles de ruido de fondo. Finalmente, si el cliente carece de datos o de ancho de banda suficiente, el audio ABR cambia automáticamente la calidad del audio para proporcionar la reproducción de audio de la más alta calidad sin interrumpir la sesión de reproducción.
¿Dónde puedes experimentar xHE-AAC hoy?
Puede escuchar audio xHE-AAC en Facebook para iOS y Android, y en superficies de destino de Instagram como Reels e Stories.. Le recomendamos que instale la última versión de las aplicaciones de Facebook e Instagram en iOS 13+ y Android 9+ para asegurarse de que puede usarlas.
Gracias
Este trabajo es el resultado colectivo de todo el equipo de Infraestructura de video e Instagram Media Platform en Meta en colaboración con Fraunhofer. Instituto de Circuitos Integrados IIS. El autor quisiera expresar un agradecimiento especial a Abhishek Gera, Tim Harris, Arun Kotidata, Edward Lee, Meng Li, Srinivas Lingutla, Denise Noyes, Mohanish Penta, David Ronka, Haixia Shi, Mike Starr, Cosmin Stejeran, Simcha Venkataramaya, Juehui Zhang . , Runshen Zhu y el equipo de ingeniería de Fraunhofer Instituto de Circuitos Integrados IIS.