La inteligencia artificial (IA), particularmente modelos de idiomas grandes como GPT-4, ha mostrado un rendimiento impresionante en las tareas de razonamiento. ¿Pero la IA realmente entiende los conceptos abstractos, o es simplemente patrones de imitación? Un nuevo estudio de la Universidad de Amsterdam y el Instituto Santa Fe revela que si bien los modelos GPT funcionan bien en algunas tareas de analogía, se quedan cortos cuando se alteran los problemas, destacando las debilidades clave en las capacidades de razonamiento de la IA.
El razonamiento analógico es la capacidad de hacer una comparación entre dos cosas diferentes basadas en sus similitudes en ciertos aspectos. Es uno de los métodos más comunes por los cuales los seres humanos intentan comprender el mundo y tomar decisiones. Un ejemplo de razonamiento analógico: la taza es el café, ya que la sopa es (la respuesta es: tazón)
Los modelos de idiomas grandes como GPT-4 funcionan bien en varias pruebas, incluidas las que requieren razonamiento analógico. Pero, ¿pueden los modelos de IA realmente participar en un razonamiento general, robusto o son demasiado en los patrones de sus datos de entrenamiento? Este estudio realizado por los expertos en idiomas y IA Martha Lewis (Instituto de Lógica, Lenguaje y Computación en la Universidad de Amsterdam) y Melanie Mitchell (Instituto Santa Fe) examinaron si los modelos GPT son tan flexibles y robustos como los humanos en hacer analogías. «Esto es crucial, ya que la IA se usa cada vez más para la toma de decisiones y la resolución de problemas en el mundo real», explica Lewis.
Comparación de modelos de IA con el rendimiento humano
Lewis y Mitchell compararon el rendimiento de los modelos humanos y GPT en tres tipos diferentes de problemas de analogía:
- Secuencias de letras – Identificar patrones en secuencias de letras y completarlos correctamente.
- Matrices de dígitos – Analizar patrones de números y determinar los números faltantes.
- Analogías de la historia – Comprender cuál de las dos historias corresponde mejor a una historia de ejemplo dada.
Un sistema que realmente comprende las analogías debe mantener un alto rendimiento incluso en variaciones
Además de probar si los modelos GPT podrían resolver los problemas originales, el estudio examinó qué tan bien se desempeñaron cuando los problemas se modificaron sutilmente. «Un sistema que realmente comprende las analogías debería mantener un alto rendimiento incluso en estas variaciones», indique a los autores en su artículo.
Los modelos GPT luchan con robustez
Los humanos mantuvieron un alto rendimiento en la mayoría de las versiones modificadas de los problemas, pero los modelos GPT, al tiempo que funcionan bien en los problemas de analogía estándar, lucharon con variaciones. «Esto sugiere que los modelos de IA a menudo razonan de manera menos flexible que los humanos y su razonamiento tiene menos que ver con la verdadera comprensión abstracta y más sobre la coincidencia de patrones», explica Lewis.
En las matrices de dígitos, los modelos GPT mostraron una caída significativa en el rendimiento cuando cambió la posición del número faltante. Los humanos no tuvieron dificultades con esto. En las analogías de la historia, GPT-4 tendió a seleccionar la primera respuesta dada con más frecuencia, mientras que los humanos no estaban influenciados por el orden de respuestas. Además, GPT-4 luchó más que los humanos cuando los elementos clave de una historia se volvieron a redactar, lo que sugiere una dependencia de las similitudes a nivel de superficie en lugar del razonamiento causal más profundo.
En tareas de analogía más simples, los modelos GPT mostraron una disminución en la disminución del rendimiento cuando se probaron en versiones modificadas, mientras que los humanos se mantuvieron consistentes. Sin embargo, para tareas de razonamiento analógico más complejas, tanto los humanos como la IA lucharon.
Más débil que la cognición humana
Esta investigación desafía la suposición generalizada de que los modelos de IA como GPT-4 pueden razonar de la misma manera que lo hacen los humanos. «Si bien los modelos de IA demuestran capacidades impresionantes, esto no significa que realmente entiendan lo que están haciendo», concluyen Lewis y Mitchell. ‘Su capacidad para generalizar a través de las variaciones sigue siendo significativamente más débil que la cognición humana. Los modelos GPT a menudo dependen de patrones superficiales en lugar de una profunda comprensión.
Esta es una advertencia crítica para el uso de IA en áreas importantes de toma de decisiones como educación, derecho y atención médica. La IA puede ser una herramienta poderosa, pero aún no es un reemplazo para el pensamiento y el razonamiento humano.