Con los pedidos de comercio electrónico llegando, un robot de almacén toma tazas de un estante y las coloca en cajas para su envío. Todo marcha sobre ruedas, hasta que el almacén procesa un cambio y el robot ahora debe agarrar tazas más altas y estrechas que se almacenan boca abajo.
Reprogramar ese robot implica etiquetar a mano miles de imágenes que le muestran cómo agarrar estas nuevas tazas y luego entrenar el sistema nuevamente.
Pero una nueva técnica desarrollada por investigadores del MIT requeriría solo un puñado de demostraciones humanas para reprogramar el robot. Este método de aprendizaje automático permite que un robot recoja y coloque objetos nunca antes vistos que están en poses aleatorias que nunca ha encontrado. Dentro de 10 a 15 minutos, el robot estaría listo para realizar una nueva tarea de recoger y colocar.
La técnica utiliza una red neuronal diseñada específicamente para reconstruir las formas de objetos 3D. Con solo unas pocas demostraciones, el sistema utiliza lo que la red neuronal ha aprendido sobre la geometría 3D para captar nuevos objetos que son similares a los de las demostraciones.
En simulaciones y usando un brazo robótico real, los investigadores muestran que su sistema puede manipular efectivamente tazas, tazones y botellas nunca antes vistos, dispuestos en poses aleatorias, usando solo 10 demostraciones para enseñarle al robot.
«Nuestra principal contribución es la capacidad general de proporcionar nuevas habilidades de manera mucho más eficiente a los robots que necesitan operar en entornos menos estructurados donde podría haber mucha variabilidad. El concepto de generalización por construcción es una capacidad fascinante porque este problema suele ser tan mucho más difícil», dice Anthony Simeonov, estudiante graduado en ingeniería eléctrica y ciencias de la computación (EECS) y coautor principal del artículo.
Simeonov escribió el artículo con el coautor principal Yilun Du, un estudiante graduado de EECS; Andrea Tagliasacchi, científica investigadora del personal de Google Brain; Joshua B. Tenenbaum, Profesor de Desarrollo de Carrera Paul E. Newton de Ciencias Cognitivas y Computación en el Departamento de Cerebro y Ciencias Cognitivas y miembro del Laboratorio de Ciencias de la Computación e Inteligencia Artificial (CSAIL); Alberto Rodríguez, Profesor Asociado de la Clase de 1957 en el Departamento de Ingeniería Mecánica; y los autores principales Pulkit Agrawal, profesor de CSAIL, y Vincent Sitzmann, profesor asistente entrante en EECS. La investigación se presentará en la Conferencia Internacional sobre Robótica y Automatización.
Geometría de agarre
Se puede entrenar a un robot para que recoja un objeto específico, pero si ese objeto está de lado (quizás se cayó), el robot ve esto como un escenario completamente nuevo. Esta es una de las razones por las que es tan difícil para los sistemas de aprendizaje automático generalizar a nuevas orientaciones de objetos.
Para superar este desafío, los investigadores crearon un nuevo tipo de modelo de red neuronal, un campo descriptor neuronal (NDF), que aprende la geometría 3D de una clase de elementos. El modelo calcula la representación geométrica de un elemento específico utilizando una nube de puntos 3D, que es un conjunto de puntos de datos o coordenadas en tres dimensiones. Los puntos de datos se pueden obtener de una cámara de profundidad que proporciona información sobre la distancia entre el objeto y un punto de vista. Si bien la red se entrenó en simulación en un gran conjunto de datos de formas 3D sintéticas, se puede aplicar directamente a objetos en el mundo real.
El equipo diseñó el NDF con una propiedad conocida como equivarianza. Con esta propiedad, si al modelo se le muestra una imagen de una taza en posición vertical, y luego se le muestra una imagen de la misma taza de lado, entiende que la segunda taza es el mismo objeto, solo girado.
«Esta equivarianza es lo que nos permite manejar de manera mucho más efectiva los casos en los que el objeto que observas tiene una orientación arbitraria», dice Simeonov.
A medida que el NDF aprende a reconstruir formas de objetos similares, también aprende a asociar partes relacionadas de esos objetos. Por ejemplo, aprende que las asas de las tazas son similares, incluso si algunas tazas son más altas o más anchas que otras, o tienen asas más pequeñas o más largas.
«Si quisiera hacer esto con otro enfoque, tendría que etiquetar a mano todas las partes. En cambio, nuestro enfoque descubre automáticamente estas partes a partir de la reconstrucción de la forma», dice Du.
Los investigadores utilizan este modelo NDF entrenado para enseñarle a un robot una nueva habilidad con solo unos pocos ejemplos físicos. Mueven la mano del robot a la parte de un objeto que quieren que agarre, como el borde de un tazón o el asa de una taza, y registran las ubicaciones de las yemas de los dedos.
Debido a que el NDF ha aprendido mucho sobre geometría 3D y cómo reconstruir formas, puede inferir la estructura de una nueva forma, lo que permite que el sistema transfiera las demostraciones a nuevos objetos en poses arbitrarias, explica Du.
Elegir un ganador
Probaron su modelo en simulaciones y en un brazo robótico real usando tazas, tazones y botellas como objetos. Su método tuvo una tasa de éxito del 85 por ciento en tareas de recoger y colocar con objetos nuevos en nuevas orientaciones, mientras que la mejor línea de base solo logró una tasa de éxito del 45 por ciento. El éxito significa agarrar un objeto nuevo y colocarlo en una ubicación objetivo, como colgar tazas en un estante.
Muchas líneas base utilizan información de imágenes 2D en lugar de geometría 3D, lo que dificulta que estos métodos integren la equivarianza. Esta es una de las razones por las que la técnica NDF funcionó mucho mejor.
Si bien los investigadores estaban contentos con su desempeño, su método solo funciona para la categoría de objetos en particular en la que se entrena. Un robot al que se le enseñó a recoger tazas no podrá recoger cajas o auriculares, ya que estos objetos tienen características geométricas que son demasiado diferentes de las que se entrenó a la red.
«En el futuro, sería ideal ampliarlo a muchas categorías o dejar de lado por completo la noción de categoría», dice Simeonov.
También planean adaptar el sistema para objetos no rígidos y, a más largo plazo, permitir que el sistema realice tareas de recoger y colocar cuando cambie el área objetivo.
Este trabajo cuenta con el apoyo, en parte, de la Agencia de Proyectos de Investigación Avanzada de Defensa, la Agencia de Ciencia y Tecnología de Defensa de Singapur y la Fundación Nacional de Ciencias.