La vida está llena de procesos para aprender y luego volver a aprender cuando se vuelven más elaborados. Un día, inicia sesión en una aplicación con solo una contraseña, luego, al día siguiente, también necesita que le envíen un código por mensaje de texto. Un día, puede simplemente meter su almuerzo favorito para microondas en el horno durante seis minutos seguidos, pero luego cambia el empaque y tiene que cocinarlo durante tres minutos, revolver y luego calentarlo por tres más. Nuestros cerebros necesitan una manera de mantenerse al día. Un nuevo estudio realizado por neurocientíficos del Instituto Picower para el Aprendizaje y la Memoria del MIT revela algunos de los circuitos que ayudan al cerebro de los mamíferos a aprender a sumar pasos.
En Comunicaciones de la naturaleza los científicos informan que cuando cambiaron las reglas de una tarea, requiriendo que las ratas se adaptaran de realizar un solo paso a realizar dos, un par de regiones en la superficie del cerebro, o corteza, colaboraron para actualizar esa comprensión y cambiar el comportamiento de las ratas para adaptarse al nuevo régimen. La corteza cingulada anterior (ACC) pareció reconocer cuando las ratas no estaban haciendo lo suficiente y actualizó las células en la corteza motora (M2) para ajustar el comportamiento de la tarea.
«Comencé este proyecto hace unos 7 u 8 años cuando quería estudiar la toma de decisiones». dijo Daigo Takeuchi, investigador de la Universidad de Tokio que dirigió el trabajo como postdoctorado en el Laboratorio RIKEN-MIT de Genética de Circuitos Neurales en el Instituto Picower dirigido por el autor principal y Profesor Picower Susumu Tonegawa. «Nuevos estudios estaban encontrando un papel para M2. Quería estudiar qué circuitos aguas arriba estaban influyendo en esto».
Tropezando con el segundo paso
Takeuchi y Tonegawa rastrearon las conexiones de los circuitos neuronales que conducían a M2 y descubrieron que muchas se originaban en el ACC. Comenzaron a ver el papel del ACC en la orientación de las decisiones secuenciales de M2 cuando inculcaron una manipulación genética en las células ACC que les permitió suprimir su actividad. Esta inhabilitación «quimiogenética» de la ACC tuvo un efecto muy específico. Cuando las reglas de la tarea cambiaron de modo que en lugar de tener que meter el hocico en un solo agujero para obtener una pequeña recompensa, las ratas tenían que meter la nariz en una secuencia de dos agujeros, los roedores con ACC silenciados tardaron mucho más en darse cuenta del cambio de regla. . En comparación con las ratas con una actividad normal de ACC, no se dieron cuenta de que era necesario el segundo golpe durante mucho más tiempo. Sin embargo, las ratas no tuvieron problemas para retroceder dos pasos a solo uno, independientemente de si su ACC estaba silenciado.
Cuando los científicos silenciaron quimiogenéticamente los terminales de las células ACC en M2, obtuvieron los mismos resultados que silenciaron el ACC en general. También silenciaron otras áreas de la corteza, pero eso no afectó la capacidad de las ratas para notar y adaptarse al cambio de regla. Juntas, estas manipulaciones confirmaron que fueron específicamente las conexiones de ACC con M2 las que ayudaron a las ratas a notar y adaptarse al cambio de un paso a dos pasos.
Pero, ¿qué efecto tiene el ACC en M2? Takeuchi y sus coautores midieron la actividad eléctrica de las células en M2 mientras las ratas jugaban a su juego de cambiar las reglas y hurgarse la nariz. Descubrieron que muchas células estaban particularmente activadas por diferentes reglas de tareas (es decir, un paso o dos pasos). Sin embargo, cuando silenciaron al ACC, eso suprimió esta regla de selectividad.
Dentro de M2, Takeuchi y el equipo también notaron poblaciones de neuronas que respondían preferentemente a resultados positivos (recompensa por hacer bien la tarea) y resultados negativos (no obtener una recompensa por hacer mal la tarea). Descubrieron que cuando silenciaron el ACC, esto en realidad aumentó la actividad de las neuronas que codifican el resultado negativo durante la retroalimentación negativa, particularmente durante las primeras 10 a 20 rondas después de que las reglas cambiaron de un paso a dos. Esto se correlacionó fuertemente con el momento, o «época», del peor desempeño de las ratas.
«Parece probable que la interrupción específica de la época del rendimiento de segunda elección de los animales esté asociada con la mejora excesiva de la actividad de las neuronas activadas por resultados negativos causadas por el silenciamiento de ACC», escribieron en el estudio.
El equipo confirmó además que la etapa de retroalimentación, o resultados, importaba al usar una técnica diferente para silenciar el ACC. Al diseñar las neuronas ACC para que sean suprimidas por destellos de luz (una técnica llamada «optogenética»), pudieron controlar con precisión cuándo se desconectó el ACC. Descubrieron que si lo hacían después de que las ratas hicieran una elección incorrecta cuando las reglas cambiaron de un toque a dos, podían hacer que las ratas siguieran cometiendo errores. El silenciamiento optogenético del ACC después de que las ratas hicieran una elección correcta no socavó su comportamiento posterior.
«Estos resultados indican que las neuronas ACC procesan la información de retroalimentación de errores después de una segunda respuesta errónea y usan esta información para ajustar las respuestas de elección secuencial del animal en ensayos posteriores», escribieron.
Un umbral demasiado alto
La evidencia pintó una imagen clara: cuando las ratas necesitaban notar que ahora se requería un paso adicional, el trabajo del ACC era aprender de la retroalimentación negativa y señalar a M2 que diera el segundo paso. Si el ACC no estaba disponible cuando se proporcionó la retroalimentación, entonces las células M2 que enfatizan los resultados negativos aparentemente se volverían especialmente activas y las ratas no podrían hacer el segundo paso requerido por un tiempo antes de finalmente darse cuenta.
¿Por qué una menor actividad de ACC aumentaría de alguna manera el resultado negativo que codifica la actividad de las células en M2? Takeuchi plantea la hipótesis de que lo que en realidad está haciendo el ACC es estimular las células inhibidoras en M2 que normalmente modulan la actividad de esas células. Con la actividad de ACC reducida, el resultado negativo que codifica las células M2 experimenta menos inhibición. El resultado del comportamiento, teoriza, es que las ratas, por lo tanto, requieren más pruebas de las que deberían del cambio de regla. El mecanismo no está del todo claro, reconoció Takeuchi, pero aparentemente las ratas necesitan más tiempo para experimentar la retroalimentación de los resultados al tomar la decisión correcta de dar un segundo paso antes de que se convenzan de que están en el camino correcto al hacerlo.
Takeuchi dijo que si bien los resultados demuestran el circuito necesario para adaptarse a un cambio de regla que requiere más pasos en un proceso, también plantea algunas preguntas nuevas e interesantes. ¿Existe otro circuito para darse cuenta cuando un proceso de múltiples pasos se ha convertido en un proceso de un solo paso? Si es así, ¿ese circuito está integrado con el discutido en este estudio? Y si el modelo de umbral es el correcto, ¿cómo funciona exactamente?
Las implicaciones no solo son importantes para comprender la base neuronal de las decisiones secuenciales naturales, sino también para aplicaciones de IA que van desde juegos o trabajo industrial, cada uno de los cuales puede involucrar tareas con múltiples pasos.
Además de Takeuchi y Tonegawa, los otros autores del estudio son Dheeraj Roy, Shruti Muralidhar, Takashi Kawai, Andrea Bari, Chanel Lovett, Heather Sullivan e Ian Wickersham.
El Centro RIKEN para la Ciencia del Cerebro, el Instituto Médico Howard Hughes, la Fundación JPB y la Beca del Programa de Ciencias Human Frontier proporcionaron fondos para el estudio.