La formación ha sido el santo grial de la robótica durante décadas. Para que estos sistemas prosperen en condiciones impredecibles, deberán hacer algo más que simplemente responder a la programación: deberán adaptarse y aprender. Cuanto más leo y hablo con expertos, más claro se vuelve que el verdadero aprendizaje robótico requerirá una combinación de muchas soluciones.
El video es una solución intrigante que ha sido la pieza central de muchos trabajos recientes en este campo. Casi al mismo tiempo, el año pasado, hablamos sobre WHIRL (entrenamiento de robot salvaje humano), un algoritmo desarrollado por CMU diseñado para entrenar sistemas robóticos al observar un registro de un humano realizando una tarea.
Esta semana, el profesor asociado del CMU Robotics Institute, Deepak Patak, demuestra VRB (Vision-Robotics Bridge), la evolución de WHIRL. Al igual que con su predecesor, el sistema utiliza video humano para demostrar la tarea, pero la actualización ya no requiere que se completen en configuraciones idénticas a aquellas en las que operará el robot.
“Pudimos mover los robots por el campus y realizar todo tipo de tareas”, dijo el estudiante graduado Shikhar Bahl en un comunicado. “Los robots pueden usar este modelo para explorar el mundo que los rodea con curiosidad. En lugar de simplemente agitar los brazos, el robot podría ser más directo en la forma en que interactúa».
El robot realiza un seguimiento de varias piezas clave de información, incluidos los puntos de contacto y la trayectoria. El comando utiliza la apertura de una caja como ejemplo. El punto de contacto es el mango y el camino es la dirección en la que se abre. “Al ver varios videos de personas que abren cajas”, señala CMU, “el robot puede descubrir cómo abrir cualquier caja”.
Obviamente, no todas las cajas se comportan igual. La gente es bastante buena abriendo cajones, pero eso no quiere decir que un armario construido al azar no nos vaya a dar problemas. Una de las técnicas clave para mejorar los resultados es crear grandes conjuntos de datos de entrenamiento. CMU se basa en videos de bases de datos como Epic Kitchens y Ego4D, la última de las cuales contiene «casi 4,000 horas de videos de actividades diarias ensimismadas de todo el mundo».
Bahl señala que hay un gran archivo de posibles datos de entrenamiento que esperan ser revisados. “Estamos utilizando estos conjuntos de datos de nuevas maneras”, señala el investigador. «Este trabajo podría permitir que los robots aprendan de la gran cantidad de videos disponibles en línea y en YouTube».