Las redes neuronales convolucionales profundas (DCNN, por sus siglas en inglés) no ven los objetos de la misma manera que los humanos, utilizando la percepción de forma configurable, y eso podría ser peligroso en las aplicaciones de IA del mundo real, dice el profesor James Elder, coautor de un estudio de la Universidad de York publicado Este Dia.
Publicado en la revista Cell Press iCienciaLos modelos de aprendizaje profundo no logran capturar la naturaleza configuracional de la percepción de la forma humana es un estudio colaborativo de Elder, quien ocupa la Cátedra de Investigación de York en Visión Humana e Informática y es codirector del Centro de Inteligencia Artificial y Sociedad de York, y Profesor Asistente de Psicología Nicholas Baker en Loyola College en Chicago, ex becaria postdoctoral de VISTA en York.
El estudio empleó estímulos visuales novedosos llamados «Frankensteins» para explorar cómo el cerebro humano y las DCNN procesan las propiedades holísticas y configurables de los objetos.
«Los Frankenstein son simplemente objetos que han sido desarmados y vueltos a armar al revés», dice Elder. «Como resultado, tienen todas las características locales correctas, pero en los lugares equivocados».
Los investigadores descubrieron que, si bien los Frankenstein confunden el sistema visual humano, las DCNN no, lo que revela una insensibilidad a las propiedades de los objetos configurables.
«Nuestros resultados explican por qué los modelos de IA profunda fallan en ciertas condiciones y señalan la necesidad de considerar tareas más allá del reconocimiento de objetos para comprender el procesamiento visual en el cerebro», dice Elder. «Estos modelos profundos tienden a tomar ‘atajos’ cuando resuelven tareas de reconocimiento complejas. Si bien estos atajos pueden funcionar en muchos casos, pueden ser peligrosos en algunas de las aplicaciones de IA del mundo real en las que estamos trabajando actualmente con nuestra industria y socios gubernamentales, «, señala el mayor.
Una de esas aplicaciones son los sistemas de seguridad de video de tráfico: «Los objetos en una escena de tráfico ocupado (vehículos, bicicletas y peatones) se obstruyen entre sí y llegan al ojo del conductor como un revoltijo de fragmentos desconectados», explica Elder. “El cerebro necesita agrupar correctamente esos fragmentos para identificar las categorías y ubicaciones correctas de los objetos. Un sistema de inteligencia artificial para el monitoreo de la seguridad del tráfico que solo puede percibir los fragmentos individualmente fallará en esta tarea, lo que podría malinterpretar los riesgos para los usuarios vulnerables de la carretera. «
Según los investigadores, las modificaciones en el entrenamiento y la arquitectura destinadas a hacer que las redes se parezcan más al cerebro no condujeron al procesamiento configuracional, y ninguna de las redes pudo predecir con precisión los juicios de objetos humanos prueba por prueba. «Especulamos que para igualar la sensibilidad configuracional humana, las redes deben estar entrenadas para resolver una gama más amplia de tareas de objetos más allá del reconocimiento de categorías», señala Elder.
Fuente de la historia:
Materiales proporcionado por Universidad de York. Nota: el contenido se puede editar por estilo y longitud.