El mundo en el que vivimos nunca ha estado más conectado, lo que brinda a las personas acceso a más contenido multilingüe que nunca. También hace que la capacidad de comunicarse y comprender información en cualquier idioma sea aún más importante.
Hoy presentamos SeamlessM4T, el primer modelo universal de traducción de IA multimodal y multilingüe que permite a las personas comunicarse fácilmente a través de voz y texto en diferentes idiomas. SeamlessM4T admite:
- Reconocimiento de voz en casi 100 idiomas
- Conversión de voz a texto para casi 100 idiomas de entrada y salida.
- Habla a voz, admite casi 100 idiomas de entrada y 36 idiomas de salida (incluido el inglés).
- Traducción de textos en casi 100 idiomas.
- Texto a voz, soporte para casi 100 idiomas de entrada y 35 idiomas de salida (incluido el inglés).
De acuerdo con nuestro enfoque de ciencia abierta, lanzamos públicamente SeamlessM4T bajo una licencia de investigación para permitir a los investigadores y desarrolladores utilizar los resultados de este trabajo. También publicamos los metadatos de SeamlessAlign, el conjunto de datos de traducción multimodal abierto más grande hasta la fecha, que combina 270 000 horas de alineaciones de voz y texto extraídas.
Crear un traductor de idiomas universal, como el pez babilónico ficticio de La Guía del autoestopista galáctico, no es una tarea fácil, ya que los sistemas de voz a voz y de voz a texto existentes cubren sólo una pequeña fracción de los idiomas del mundo. Pero creemos que el trabajo que anunciamos hoy es un importante paso adelante en ese camino. En comparación con los enfoques de modelos separados, el enfoque de sistema unificado de SeamlessM4T reduce errores y retrasos, mejorando la eficiencia y la calidad del proceso de traducción. Esto permite que las personas que hablan diferentes idiomas se comuniquen entre sí de forma más eficaz.
SeamlessM4T se basa en los logros que nosotros y otras empresas hemos logrado a lo largo de años de trabajo en la creación de un traductor universal. El año pasado lanzamos No Language Left Behind (NLLB), un modelo de traducción automática de texto a texto que admite 200 idiomas y desde entonces se ha integrado en Wikipedia como uno de los proveedores de servicios de traducción. También compartimos una demostración de nuestro Universal Speech Translator, que es el primer sistema de traducción directa de voz para Hokkien, un idioma que no tiene un sistema de escritura ampliamente utilizado. Y a principios de este año, presentamos Massically Multilingual Speech, que proporciona reconocimiento de voz, identificación de idiomas y tecnología de síntesis de voz en más de 1100 idiomas.
SeamlessM4T se basa en los resultados de todos estos proyectos para proporcionar traducción multilingüe y multimodal basada en un único modelo construido sobre una amplia gama de fuentes de datos orales con resultados de última generación.
Este es solo el último paso en nuestro esfuerzo continuo por crear tecnología impulsada por IA que ayude a conectar a personas que hablan diferentes idiomas. En el futuro, queremos explorar cómo este modelo fundamental puede brindar nuevas oportunidades de comunicación que, en última instancia, nos acercarán a un mundo donde todos puedan ser comprendidos.
Obtenga más información sobre SeamlessM4T en nuestro Blog de IA.