Los modelos de aprendizaje automático pueden cometer errores y ser difíciles de usar, por lo que los científicos han desarrollado métodos de explicación para ayudar a los usuarios a comprender cuándo y cómo deben confiar en las predicciones de un modelo.
Sin embargo, estas explicaciones suelen ser complejas y quizás contengan información sobre cientos de características del modelo. Y a veces se presentan como visualizaciones multifacéticas que pueden resultar difíciles de comprender por completo para los usuarios que carecen de experiencia en aprendizaje automático.
Para ayudar a las personas a entender las explicaciones de la IA, los investigadores del MIT utilizaron modelos de lenguaje grande (LLM) para transformar las explicaciones basadas en la trama en un lenguaje sencillo.
Desarrollaron un sistema de dos partes que convierte una explicación de aprendizaje automático en un párrafo de texto legible por humanos y luego evalúa automáticamente la calidad de la narrativa, para que el usuario final sepa si confiar en ella.
Al indicar al sistema algunas explicaciones de ejemplo, los investigadores pueden personalizar sus descripciones narrativas para satisfacer las preferencias de los usuarios o los requisitos de aplicaciones específicas.
A largo plazo, los investigadores esperan aprovechar esta técnica permitiendo a los usuarios hacer preguntas de seguimiento a un modelo sobre cómo llegó a realizar predicciones en entornos del mundo real.
«Nuestro objetivo con esta investigación fue dar el primer paso para permitir a los usuarios tener conversaciones completas con modelos de aprendizaje automático sobre las razones por las que hicieron ciertas predicciones, para que puedan tomar mejores decisiones sobre si escuchar o no el modelo», dice. Alexandra Zytek, estudiante de posgrado en ingeniería eléctrica e informática (EECS) y autora principal de un artículo sobre esta técnica.
En el artículo la acompañan Sara Pido, postdoctorada del MIT; Sarah Alnegheimish, estudiante de posgrado de EECS; Laure Berti-Équille, directora de investigación del Instituto Nacional de Investigación para el Desarrollo Sostenible de Francia; y el autor principal Kalyan Veeramachaneni, científico investigador principal del Laboratorio de Sistemas de Información y Decisión. La investigación se presentará en la Conferencia IEEE Big Data.
Explicaciones esclarecedoras
Los investigadores se centraron en un tipo popular de explicación del aprendizaje automático llamado SHAP. En una explicación SHAP, se asigna un valor a cada característica que utiliza el modelo para hacer una predicción. Por ejemplo, si un modelo predice los precios de la vivienda, una característica podría ser la ubicación de la casa. A la ubicación se le asignaría un valor positivo o negativo que representa cuánto modificó esa característica la predicción general del modelo.
A menudo, las explicaciones SHAP se presentan como diagramas de barras que muestran qué características son más o menos importantes. Pero para un modelo con más de 100 características, ese diagrama de barras rápidamente se vuelve difícil de manejar.
«Como investigadores, tenemos que tomar muchas decisiones sobre lo que vamos a presentar visualmente. Si elegimos mostrar solo los 10 primeros, la gente podría preguntarse qué pasó con otra característica que no está en la trama. Usando lenguaje natural nos libera de tener que tomar esas decisiones», dice Veeramachaneni.
Sin embargo, en lugar de utilizar un modelo de lenguaje grande para generar una explicación en lenguaje natural, los investigadores utilizan el LLM para transformar una explicación SHAP existente en una narrativa legible.
Al hacer que el LLM solo maneje la parte del proceso en lenguaje natural, se limita la oportunidad de introducir imprecisiones en la explicación, explica Zytek.
Su sistema, llamado EXPLINGO, está dividido en dos piezas que funcionan juntas.
El primer componente, llamado NARRADOR, utiliza un LLM para crear descripciones narrativas de explicaciones SHAP que satisfagan las preferencias del usuario. Al proporcionar inicialmente a NARRADOR de tres a cinco ejemplos escritos de explicaciones narrativas, el LLM imitará ese estilo al generar texto.
«En lugar de que el usuario intente definir qué tipo de explicación está buscando, es más fácil que escriba simplemente lo que quiere ver», afirma Zytek.
Esto permite personalizar fácilmente NARRATOR para nuevos casos de uso mostrándole un conjunto diferente de ejemplos escritos manualmente.
Después de que NARRADOR crea una explicación en lenguaje sencillo, el segundo componente, GRADER, utiliza un LLM para calificar la narrativa en cuatro métricas: concisión, precisión, integridad y fluidez. GRADER solicita automáticamente al LLM el texto del NARRADOR y la explicación SHAP que describe.
«Descubrimos que, incluso cuando un LLM comete un error al realizar una tarea, a menudo no cometerá un error al verificar o validar esa tarea», dice.
Los usuarios también pueden personalizar GRADER para otorgar diferentes pesos a cada métrica.
«Se podría imaginar, en un caso de alto riesgo, ponderar la precisión y la integridad mucho más que la fluidez, por ejemplo», añade.
Analizando narrativas
Para Zytek y sus colegas, uno de los mayores desafíos fue ajustar el LLM para que generara narrativas que sonaran naturales. Cuantas más pautas agregaran para controlar el estilo, más probable sería que el LLM introdujera errores en la explicación.
«Se realizaron muchos ajustes rápidos para encontrar y corregir cada error, uno por uno», dice.
Para probar su sistema, los investigadores tomaron nueve conjuntos de datos de aprendizaje automático con explicaciones y pidieron a diferentes usuarios que escribieran narrativas para cada conjunto de datos. Esto les permitió evaluar la capacidad de NARRATOR para imitar estilos únicos. Utilizaron GRADER para calificar cada explicación narrativa en las cuatro métricas.
Al final, los investigadores descubrieron que su sistema podía generar explicaciones narrativas de alta calidad e imitar eficazmente diferentes estilos de escritura.
Sus resultados muestran que proporcionar algunas explicaciones de ejemplo escritas manualmente mejora enormemente el estilo narrativo. Sin embargo, esos ejemplos deben escribirse con cuidado; incluir palabras comparativas, como «más grande», puede hacer que GRADER marque explicaciones precisas como incorrectas.
A partir de estos resultados, los investigadores quieren explorar técnicas que podrían ayudar a su sistema a manejar mejor las palabras comparativas. También quieren ampliar EXPLINGO añadiendo racionalización a las explicaciones.
A largo plazo, esperan utilizar este trabajo como un trampolín hacia un sistema interactivo donde el usuario pueda hacerle preguntas de seguimiento a un modelo sobre una explicación.
«Eso ayudaría con la toma de decisiones de muchas maneras. Si las personas no están de acuerdo con la predicción de un modelo, queremos que puedan descubrir rápidamente si su intuición es correcta, o si la intuición del modelo es correcta, y dónde está esa diferencia. proviene», dice Zytek.