Hoy anunciamos un gran avance en inteligencia artificial generativa para el habla. Hemos desarrollado Voicebox, un modelo de IA de última generación que puede realizar tareas de generación de voz, como edición, muestreo y estilo, para las que no ha sido entrenado específicamente a través del aprendizaje contextual.
Voicebox puede crear clips de audio de alta calidad y editar audio pregrabado, como eliminar bocinas de automóviles o ladridos de perros, todo mientras mantiene el contenido y el estilo del audio. El modelo también es multilingüe y puede reproducir el habla en seis idiomas.
En el futuro, los modelos de IA generativa multipropósito, como Voicebox, podrán proporcionar voces con un sonido natural a los asistentes virtuales y NPC en el metaverso. Podrían permitir que las personas con discapacidad visual escuchen mensajes escritos de amigos leídos por inteligencia artificial en sus voces, brindarles a los creadores nuevas herramientas para crear y editar fácilmente pistas de audio para videos, y mucho más.
La versatilidad de Voicebox le permite resolver muchos problemas, entre ellos:
Síntesis de voz contextual: Usando una muestra de sonido tan corta como dos segundos, Voicebox puede igualar el estilo de sonido y usarlo para texto a voz.
Edición de voz y reducción de ruido: Voicebox puede recrear partes del discurso interrumpidas por ruido o reemplazar palabras mal pronunciadas sin tener que volver a grabar todo el discurso. Por ejemplo, puede identificar un fragmento de voz interrumpido por el ladrido de un perro, cortarlo y decirle a Voicebox que regenere ese fragmento, como un borrador de edición de audio.
Transferencia de estilo entre idiomas: cuando se da Si la muestra de voz y el texto de alguien están en inglés, francés, alemán, español, polaco o portugués, Voicebox puede producir una lectura de texto en cualquiera de estos idiomas, incluso si la muestra de voz y el texto están en diferentes idiomas. Esta función podría utilizarse en el futuro para ayudar a las personas a comunicarse de forma natural y auténtica, incluso si no hablan el mismo idioma.
Muestreo de voz variado: Mediante el estudio de varios datos, Voicebox puede generar un discurso que sea más representativo de cómo hablan las personas en el mundo real y en los seis idiomas mencionados anteriormente.
Voicebox es un importante paso adelante en nuestra investigación generativa de IA, y esperamos continuar nuestra investigación en el espacio de audio y ver cómo otros investigadores se basan en nuestro trabajo.
Aprender más acerca de Caja de voz.