Investigadores dirigidos por la Universidad de California en San Diego han desarrollado un nuevo modelo que entrena a robots de cuatro patas para ver más claramente en 3D. El avance permitió a un robot cruzar de forma autónoma terrenos desafiantes con facilidad, incluidas escaleras, terreno rocoso y caminos llenos de huecos, mientras despejaba obstáculos en su camino.
Los investigadores presentarán su trabajo en la Conferencia 2023 sobre Visión por Computador y Reconocimiento de Patrones (CVPR), que tendrá lugar del 18 al 22 de junio en Vancouver, Canadá.
«Al proporcionar al robot una mejor comprensión de su entorno en 3D, se puede implementar en entornos más complejos en el mundo real», dijo el autor principal del estudio, Xiaolong Wang, profesor de ingeniería eléctrica e informática en la Escuela Jacobs de UC San Diego. de Ingeniería.
El robot está equipado con una cámara de profundidad orientada hacia adelante en su cabeza. La cámara está inclinada hacia abajo en un ángulo que le da una buena vista tanto de la escena frente a ella como del terreno debajo de ella.
Para mejorar la percepción 3D del robot, los investigadores desarrollaron un modelo que primero toma imágenes 2D de la cámara y las traduce al espacio 3D. Para ello, observa una breve secuencia de vídeo que consta del cuadro actual y algunos cuadros anteriores, y luego extrae fragmentos de información 3D de cada cuadro 2D. Eso incluye información sobre los movimientos de las piernas del robot, como el ángulo de la articulación, la velocidad de la articulación y la distancia desde el suelo. El modelo compara la información de los fotogramas anteriores con la información del fotograma actual para estimar la transformación 3D entre el pasado y el presente.
El modelo fusiona toda esa información para que pueda usar el cuadro actual para sintetizar los cuadros anteriores. A medida que el robot se mueve, el modelo compara los fotogramas sintetizados con los fotogramas que la cámara ya ha capturado. Si son una buena combinación, entonces el modelo sabe que ha aprendido la representación correcta de la escena 3D. De lo contrario, hace correcciones hasta que acierta.
La representación 3D se utiliza para controlar el movimiento del robot. Al sintetizar información visual del pasado, el robot puede recordar lo que ha visto, así como las acciones que sus piernas han realizado antes, y usar esa memoria para informar sus próximos movimientos.
«Nuestro enfoque permite que el robot construya una memoria a corto plazo de su entorno 3D para que pueda actuar mejor», dijo Wang.
El nuevo estudio se basa en el trabajo anterior del equipo, donde los investigadores desarrollaron algoritmos que combinan la visión por computadora con la propiocepción, que involucra el sentido del movimiento, la dirección, la velocidad, la ubicación y el tacto, para permitir que un robot de cuatro patas camine y corra. terreno irregular mientras evita los obstáculos. El avance aquí es que al mejorar la percepción 3D del robot (y combinarla con la propiocepción), los investigadores muestran que el robot puede atravesar terrenos más desafiantes que antes.
«Lo emocionante es que hemos desarrollado un modelo único que puede manejar diferentes tipos de entornos desafiantes», dijo Wang. «Eso se debe a que hemos creado una mejor comprensión del entorno 3D que hace que el robot sea más versátil en diferentes escenarios».
Sin embargo, el enfoque tiene sus limitaciones. Wang señala que su modelo actual no guía al robot a un objetivo o destino específico. Cuando se despliega, el robot simplemente toma un camino recto y si ve un obstáculo, lo evita alejándose por otro camino recto. «El robot no controla exactamente a dónde va», dijo. «En el trabajo futuro, nos gustaría incluir más técnicas de planificación y completar la tubería de navegación».
Video: https://youtu.be/vJdt610GSGk
Título del artículo: «Memoria volumétrica neuronal para el control de la locomoción visual». Los coautores incluyen a Ruihan Yang, UC San Diego, y Ge Yang, Instituto de Tecnología de Massachusetts.
Este trabajo fue apoyado en parte por la Fundación Nacional de Ciencias (CCF-2112665, IIS-2240014, 1730158 y ACI-1541349), un premio de investigación de Amazon y obsequios de Qualcomm.