Foco en París, Londres, Tel Aviv y Zúrich
En los ocho años desde que establecimos nuestro centro FAIR en París, Meta se ha convertido en una de las organizaciones de investigación líderes en el mundo, con un trabajo pionero realizado en nuestros centros técnicos en París, Londres, Tel Aviv y Zúrich.
Una de las decisiones más importantes que tomamos al crear FAIR fue poner la investigación exploratoria y la ciencia abierta en el centro. Colaboramos regularmente con investigadores externos porque tenemos una fuerte hipótesis de que esta es la forma más rápida y responsable de progresar.
“Nos hemos asociado con instituciones para capacitar a generaciones de investigadores de IA, especialmente a través de nuestros programas de doctorado”, dijo Nyla Murray, directora de FAIR EMEA. «Muchos de nuestros estudiantes de doctorado han hecho contribuciones importantes a este campo».
Hoy, nuestros equipos en París, Londres, Tel Aviv y Zúrich se enfocan en una variedad de intereses, incluido el aprendizaje autosupervisado, el aprendizaje por refuerzo, el habla y el sonido, la visión por computadora, el modelado del lenguaje natural, la IA responsable, la teoría del aprendizaje automático, el rendimiento del modelo, AR/VR y más.
“Nuestra investigación está impulsada por una combinación única de ambición y compañerismo, y nuestro equipo trabaja en estrecha colaboración a través de la experiencia, la antigüedad, la ubicación y las responsabilidades laborales para lograr un rápido progreso en la investigación”, dijo Murray. “En la era actual de la investigación de la IA, cada día parece traer un nuevo avance potencial en la investigación, incluso de nuestro equipo de EMEA”.
Investigación pionera en grandes modelos lingüísticos
A principios de este año, nuestros investigadores en París formaron un equipo que construyó e implementó LAMA (Meta-AI para un modelo de lenguaje grande) – fundamental de vanguardia gran modelo de lenguaje diseñado para ayudar a los investigadores a avanzar en su trabajo en esta área de la IA.
LLaMA funciona tomando una secuencia de palabras como entrada y predice la siguiente palabra para generar texto de forma recursiva. Para entrenar nuestro modelo, seleccionamos texto de los 20 idiomas con mayor número de hablantes, enfocándonos en los idiomas latino y cirílico. Con la capacidad de generar texto creativo, resolver teoremas matematicos, predecir estructuras de proteínasresponder preguntas sobre comprensión de lectura y más, los modelos de lenguaje grandes son uno de los ejemplos más claros de los importantes beneficios potenciales que la IA puede ofrecer a miles de millones de personas a escala.
Autoaprendizaje de visión artificial
Nuestros equipos, también con sede en París, presentaron dos avances en la investigación de la visión artificial. En abril presentamos DINOV2 es el primer método de entrenamiento de modelos de visión artificial que utiliza el aprendizaje autosupervisado para lograr resultados que cumplen o superan el enfoque estándar utilizado en el campo.
DINOv2 puede detectar y segmentar objetos en una imagen o video sin ningún control y sin especificar un objetivo. Por ejemplo, DINO puede entender que una imagen contiene la representación de un perro sin siquiera saber qué es un perro. Como parte de este anuncio, hemos compartido demostración pública que cualquiera puede usar para explorar algunas de las características de DINOv2.
Ya estamos usando DINOv2 para aprender más sobre el mundo físico. Meta colaboró recientemente con Instituto de Recursos Mundiales A usar IA para mapear bosques – árbol por árbol – a través de territorios del tamaño de continentes. Si bien nuestro modelo independiente se entrenó con datos de bosques en América del Norte, las estimaciones confirman que generaliza bien y proporciona mapas precisos en otros lugares del mundo.
Nuestro equipo de París, en colaboración con colegas de América del Norte, también realizó un nuevo estudio usando SEER (SElf-SupERvised), un innovador modelo de visión artificial autosupervisado de Meta AI Research.. SEER aprende directamente de cualquier conjunto aleatorio de imágenes, sin la necesidad de una cuidadosa selección y etiquetado de datos que se requiere en el entrenamiento convencional de visión por computadora, y luego genera una imagen incrustada.
Para nuestro último avance, SEER10B, utilizamos una variedad de conjuntos de datos para brindar una visión por computadora mejor y más justa. Los sistemas de visión por computadora tradicionales se entrenan principalmente con ejemplos de los EE. UU. y países europeos ricos, por lo que a menudo tienen un desempeño deficiente en imágenes de otros lugares con diferentes características socioeconómicas. SEER funciona bien para imágenes de todo el mundo, incluidas regiones fuera de los EE. UU. y Europa con una amplia gama de niveles de ingresos. SEER10B mejoró significativamente las puntuaciones de honestidad en todos los grupos de género, tono de piel y edad. Además de un rendimiento mejorado en las pruebas de honestidad, este modelo comprende imágenes de todo el mundo lo suficientemente bien como para localizarlas con una precisión sin precedentes. Esperamos que SEER sea un componente importante a medida que la comunidad de IA trabaja para crear sistemas que funcionen bien para todos.
Avances en Modelado 3D
En agosto de 2022, investigadores de Londres y París descifraron Implitron, estructura modular en nuestra biblioteca PyTorch3D de código abierto. Implictron utiliza la Representación Implícita Neural, una técnica de visión por computadora que puede combinar fácilmente objetos reales y virtuales en realidad aumentada sin requerir grandes cantidades de datos de entrenamiento o estar limitado a solo unos pocos puntos de vista.
Implicitron aprende una representación de un objeto o escena 3D utilizando un conjunto disperso de imágenes combinadas de ese objeto o escena desde puntos de vista arbitrarios. A diferencia de las representaciones 3D tradicionales, como mallas o nubes de puntos, este nuevo enfoque presenta los objetos como una característica continua, lo que permite reconstruir geometrías complejas y colores con mayor precisión.
IA generativa para imágenes y videos
Nuestro equipo en Tel Aviv trabaja en estrecha colaboración con la IA generativa y ha estado a la vanguardia de algunos de los últimos avances de Meta. En julio de 2022, nuestros investigadores y colaboradores de Tel Aviv de todo el mundo creado modelo de IA exploratorio generativo llamado Make-A-Scene. Este método de IA generativa multimodal pone el control creativo en manos de las personas que lo usan, lo que les permite describir e ilustrar su visión a través de descripciones de texto y bocetos de forma libre, lo que da como resultado un arte surrealista como un perrito caliente volando por el cielo. , y rascacielos en el desierto.
Hemos continuado este trabajo con Hacer un vídeoun sistema de inteligencia artificial que permite a las personas convertir pistas de texto en videoclips cortos, únicos y de alta calidad. El sistema también puede crear videos a partir de imágenes o tomar videos existentes y crear otros nuevos que se parezcan a ellos.
Metaverso y más allá
MarCreemos que la realidad aumentada y virtual, combinada con interfaces basadas en IA, constituirá el próximo cambio de paradigma en la informática centrada en el ser humano. Mientras que nuestros otros centros en la región EMEA se centran principalmente en la investigación de IA para ayudarnos a lograr esto, nuestro equipo en Zúrich está trabajando de cerca para avanzar en AR y VR.
Juntos estamos trabajando en interfaces contextuales de IA que podrían permitir que nuestros dispositivos comprendan nuestro contexto, nuestras preferencias, nuestro historial y nuestros objetivos. Esto respalda nuestra visión de un futuro en el que los dispositivos actúan como socios en lugar de herramientas, rodeándonos de tecnologías que se adaptan a nosotros y nos ayudan a trabajar de la manera que queremos.
Según Murray, históricamente diferentes áreas de investigación de IA han estado relativamente aisladas entre sí. Sin embargo, la base de colaboración sobre la que se construyó FAIR fue un catalizador importante para reunir a los distintos equipos y hacer avanzar la investigación.
Como jefa del equipo de FAIR EMEA, Murray dijo que una de las mejores partes de su trabajo es «impulsar la colaboración entre investigadores mediante la identificación de vínculos entre intereses de investigación relacionados».
“En los últimos meses, ha habido una emocionante confluencia de percepción multimodal, comprensión y generación de lenguaje, aprendizaje por refuerzo e interacción hombre-máquina”, dijo Murray. “Esta fusión nos acerca a un sueño industrial de larga data de construir sistemas inteligentes verdaderamente avanzados, lo cual es muy emocionante”.