Soporte para miles de idiomas
Muchos de los idiomas del mundo están en peligro de extinción, y las limitaciones de las tecnologías modernas de reconocimiento y generación de voz solo acelerarán esta tendencia. Queremos facilitar a las personas el acceso a la información y el uso de dispositivos en su idioma preferido, y hoy anunciamos una serie de modelos de inteligencia artificial (IA) que pueden ayudarlos a hacer precisamente eso.
Los modelos Mass Multilingual Speech (MMS) amplían las capacidades de la tecnología de texto a voz y de voz a texto de unos 100 idiomas a más de 1100, más de 10 veces más que antes, y también pueden identificar más de 4000 idiomas hablados. idiomas, 40 veces más que antes.
También hay muchos casos de uso para las tecnologías del habla, desde tecnologías de realidad virtual y aumentada hasta servicios de mensajería, que se pueden usar en el idioma preferido de una persona y se puede entender la voz de todos.
Abrimos nuestros modelos y código para que otros miembros de la comunidad de investigación puedan desarrollar nuestro trabajo y ayudar a preservar los idiomas del mundo y acercar el mundo.
Nuestro enfoque
Recopilar datos de audio para miles de idiomas fue nuestro primer desafío porque los conjuntos de datos de voz más grandes existentes no cubren más de 100 idiomas. Para superar esto, recurrimos a textos religiosos como la Biblia, que se han traducido a muchos idiomas diferentes y cuyas traducciones se han estudiado ampliamente para el estudio de la traducción de idiomas basada en texto.
Estas traducciones tienen grabaciones de audio públicas de personas que leen estos textos en diferentes idiomas. Como parte del proyecto MMS, creamos un conjunto de datos de lectura del Nuevo Testamento en más de 1100 idiomas, lo que proporciona un promedio de 32 horas de datos por idioma.
By revisar grabaciones no marcadas de otras lecturas religiosas cristianas, aumentamos la cantidad de idiomas disponibles supera los 4000. Aunque estos datos son específicos del dominio y, a menudo, los leen los hombres que hablan, nuestro análisis muestra que nuestros modelos suena igual de bien para voces masculinas y femeninas. Aunque el contenido de las grabaciones de audio es religioso, nuestro análisis muestra que esto no sesga el modelo hacia un lenguaje más religioso.
Adelante
En el futuro, queremos ampliar la cobertura de MMS para admitir incluso más idiomas, así como resolver el problema del manejo de dialectos, que suele ser difícil para las tecnologías de voz existentes.
Aprenda más sobre SMM.