Para que la IA sirva a la sociedad de manera justa, los investigadores necesitan conjuntos de datos diversos e inclusivos. estrictamente evaluar la equidad en sus modelos. En las aplicaciones de visión por computadora y reconocimiento de voz, los investigadores de IA necesitan datos para evaluar qué tan bien funciona un modelo para diferentes datos demográficos. Y estos datos pueden ser difíciles de recopilar debido a contextos geográficos y culturales complejos, inconsistencias entre diferentes fuentes y problemas con la precisión del etiquetado.
hoy estamos lanzando Conversaciones aleatorias v2, un recurso público basado en el consenso que permite a los investigadores evaluar mejor la validez y confiabilidad de ciertos tipos de modelos de IA. Este completo conjunto de datos ofrece una lista detallada de 11 categorías autoproporcionadas y anotadas para medir aún más la equidad y la solidez algorítmica en estos sistemas de IA. La publicación de este conjunto de datos es uno de los hitos clave de nuestra progreso de los derechos civilescreado en consulta con expertos internos en el campo. El conjunto de datos incluye 26.467 monólogos en video grabados en siete países con 5.567 contribuyentes que pagaron y proporcionaron atributos de autoidentificación, como la edad y el género, y representan la próxima generación después del original. Conjunto de datos de conversaciones casuales basadas en el consentimiento, que lanzamos en 2022. Hasta donde sabemos, este es el primer conjunto de datos de código abierto que contiene videos recopilados de diferentes países utilizando información demográfica detallada y altamente precisa para ayudar a validar los modelos de IA para la equidad y la confiabilidad.
En Casual Conversations v2, queríamos usar un conjunto de datos multilingüe para respaldar el desarrollo de modelos de procesamiento de lenguaje natural inclusivos. Además de la lista ampliada de categorías, Casual Conversations v2 se diferencia de la primera versión al incluir monólogos de participantes grabados fuera de los EE. UU. Los siete países incluidos en v2 son Brasil, India, Indonesia, México, Vietnam, Filipinas y Estados Unidos. En el futuro, esperamos expandir el conjunto de datos a otras regiones. Otra diferencia en el último conjunto de datos es que a los participantes se les dio la oportunidad de hablar tanto en su idioma principal como en el secundario.
Obtenga más información sobre Conversaciones casuales v2 en nuestro Blog de IA.