Las herramientas de inteligencia artificial como ChatGPT han sido promocionadas por su promesa de aliviar la carga de trabajo de los médicos al clasificar a los pacientes, tomar historiales médicos e incluso proporcionar diagnósticos preliminares.
Estas herramientas, conocidas como modelos de lenguaje grande, ya están siendo utilizadas por los pacientes para dar sentido a sus síntomas y a los resultados de las pruebas médicas.
Pero si bien estos modelos de IA funcionan de manera impresionante en pruebas médicas estandarizadas, ¿qué tan bien les va en situaciones que imitan más fielmente el mundo real?
No es tan bueno, según los hallazgos de un nuevo estudio dirigido por investigadores de la Facultad de Medicina de Harvard y la Universidad de Stanford.
Para su análisis, publicado el 2 de enero en Medicina de la naturalezalos investigadores diseñaron un marco de evaluación (o una prueba) llamado CRAFT-MD (Marco de evaluación del razonamiento conversacional para pruebas en medicina) y lo implementaron en cuatro modelos de lenguaje grande para ver qué tan bien se desempeñaban en entornos que imitaban fielmente las interacciones reales con los pacientes.
Los cuatro modelos de lenguaje extenso obtuvieron buenos resultados en preguntas estilo examen médico, pero su desempeño empeoró cuando participaron en conversaciones que imitaban más de cerca las interacciones del mundo real.
Esta brecha, dijeron los investigadores, subraya una doble necesidad: en primer lugar, crear evaluaciones más realistas que midan mejor la idoneidad de los modelos clínicos de IA para su uso en el mundo real y, en segundo lugar, mejorar la capacidad de estas herramientas para realizar diagnósticos. basado en interacciones más realistas antes de su implementación en la clínica.
Las herramientas de evaluación como CRAFT-MD, dijo el equipo de investigación, no solo pueden evaluar los modelos de IA con mayor precisión para determinar el estado físico en el mundo real, sino que también podrían ayudar a optimizar su desempeño en la clínica.
«Nuestro trabajo revela una paradoja sorprendente: si bien estos modelos de IA sobresalen en los exámenes de la junta médica, tienen dificultades con los vaivenes básicos de una visita al médico», dijo el autor principal del estudio, Pranav Rajpurkar, profesor asistente de informática biomédica en la Facultad de Medicina de Harvard. .
«La naturaleza dinámica de las conversaciones médicas (la necesidad de hacer las preguntas correctas en el momento adecuado, reunir información dispersa y razonar a través de los síntomas) plantea desafíos únicos que van mucho más allá de responder preguntas de opción múltiple. Cuando pasamos de las pruebas estandarizadas A estas conversaciones naturales, incluso los modelos de IA más sofisticados muestran caídas significativas en la precisión del diagnóstico».
Una mejor prueba para comprobar el rendimiento de la IA en el mundo real
En este momento, los desarrolladores prueban el rendimiento de los modelos de IA pidiéndoles que respondan preguntas médicas de opción múltiple, generalmente derivadas del examen nacional para estudiantes de medicina graduados o de pruebas realizadas a residentes médicos como parte de su certificación.
«Este enfoque supone que toda la información relevante se presenta de forma clara y concisa, a menudo con terminología médica o palabras de moda que simplifican el proceso de diagnóstico, pero en el mundo real este proceso es mucho más complicado», afirmó la coautora principal del estudio, Shreya Johri, estudiante de doctorado. en el Laboratorio Rajpurkar de la Facultad de Medicina de Harvard.
«Necesitamos un marco de prueba que refleje mejor la realidad y, por lo tanto, sea mejor para predecir qué tan bien funcionaría un modelo».
CRAFT-MD fue diseñado para ser uno de esos indicadores más realistas.
Para simular interacciones del mundo real, CRAFT-MD evalúa qué tan bien los modelos en lenguaje grande pueden recopilar información sobre síntomas, medicamentos e antecedentes familiares y luego hacer un diagnóstico. Se utiliza un agente de IA para hacerse pasar por un paciente y responder preguntas en un estilo conversacional y natural.
Otro agente de IA califica la precisión del diagnóstico final realizado por el modelo en lenguaje grande. Luego, los expertos humanos evalúan los resultados de cada encuentro para determinar la capacidad de recopilar información relevante del paciente, la precisión del diagnóstico cuando se presenta información dispersa y el cumplimiento de las indicaciones.
Los investigadores utilizaron CRAFT-MD para probar cuatro modelos de IA (tanto propietarios como comerciales y de código abierto) para determinar su rendimiento en 2000 viñetas clínicas que presentaban afecciones comunes en la atención primaria y en 12 especialidades médicas.
Todos los modelos de IA mostraron limitaciones, particularmente en su capacidad para llevar a cabo conversaciones clínicas y razonar basándose en la información proporcionada por los pacientes. Eso, a su vez, comprometió su capacidad para realizar historiales médicos y realizar un diagnóstico adecuado. Por ejemplo, los modelos a menudo tenían dificultades para hacer las preguntas correctas para recopilar la historia pertinente del paciente, omitieron información crítica durante la toma de la historia y tuvieron dificultades para sintetizar información dispersa.
La precisión de estos modelos disminuyó cuando se les presentó información abierta en lugar de respuestas de opción múltiple. Estos modelos también obtuvieron peores resultados cuando participaron en intercambios de ida y vuelta (como ocurre con la mayoría de las conversaciones del mundo real) que cuando participaron en conversaciones resumidas.
Recomendaciones para optimizar el rendimiento de la IA en el mundo real
Con base en estos hallazgos, el equipo ofrece un conjunto de recomendaciones tanto para los desarrolladores de IA que diseñan modelos de IA como para los reguladores encargados de evaluar y aprobar estas herramientas.
Estos incluyen:
- Uso de preguntas conversacionales abiertas que reflejan con mayor precisión las interacciones no estructuradas entre médico y paciente en el diseño, capacitación y prueba de herramientas de inteligencia artificial.
- Evaluar los modelos por su capacidad para hacer las preguntas correctas y extraer la información más esencial.
- Diseñar modelos capaces de seguir múltiples conversaciones e integrar información de ellas
- Diseño de modelos de IA capaces de integrar datos textuales (notas de conversaciones) con y no textuales (imágenes, electrocardiógrafos)
- Diseñar agentes de IA más sofisticados que puedan interpretar señales no verbales como expresiones faciales, tono y lenguaje corporal.
Además, la evaluación debe incluir tanto agentes de IA como expertos humanos, recomiendan los investigadores, porque depender únicamente de expertos humanos requiere mucha mano de obra y es costoso. Por ejemplo, CRAFT-MD superó a los evaluadores humanos, procesando 10 000 conversaciones en 48 a 72 horas, más 15 a 16 horas de evaluación de expertos.
Por el contrario, los enfoques basados en humanos requerirían un reclutamiento extenso y aproximadamente 500 horas para simulaciones de pacientes (casi tres minutos por conversación) y alrededor de 650 horas para evaluaciones de expertos (casi cuatro minutos por conversación). El uso de evaluadores de IA como primera línea tiene la ventaja adicional de eliminar el riesgo de exponer a pacientes reales a herramientas de IA no verificadas.
Los investigadores dijeron que esperan que el propio CRAFT-MD también se actualice y optimice periódicamente para integrar modelos mejorados de IA-paciente.
«Como médico científico, estoy interesada en modelos de IA que puedan aumentar la práctica clínica de manera efectiva y ética», dijo la coautora principal del estudio, Roxana Daneshjou, profesora asistente de ciencia de datos biomédicos y dermatología en la Universidad de Stanford.
«CRAFT-MD crea un marco que refleja más fielmente las interacciones del mundo real y, por lo tanto, ayuda a avanzar en el campo cuando se trata de probar el rendimiento del modelo de IA en la atención médica».
Más información:
Un marco de evaluación para el uso clínico de modelos de lenguaje grandes en tareas de interacción con pacientes. Medicina de la naturaleza (2024). DOI: 10.1038/s41591-024-03328-5
Citación: Nueva prueba evalúa las habilidades de comunicación en el mundo real de los médicos de IA (2025, 2 de enero) recuperado el 2 de enero de 2025 de https://medicalxpress.com/news/2024-12-ai-doctors-real-world-communication.html
Este documento está sujeto a derechos de autor. Aparte de cualquier trato justo con fines de estudio o investigación privados, ninguna parte puede reproducirse sin el permiso por escrito. El contenido se proporciona únicamente con fines informativos.