El chatbot ChatGPT tuvo un mejor desempeño que los médicos en formación en la evaluación de casos complejos de enfermedades respiratorias en áreas como la fibrosis quística, el asma y las infecciones del pecho en un estudio presentado en el Congreso de la Sociedad Respiratoria Europea (ERS) en Viena, Austria.
El estudio también mostró que el chatbot Bard de Google tuvo un mejor desempeño que los aprendices en algunos aspectos y que el chatbot Bing de Microsoft tuvo un mejor desempeño que los aprendices.
La investigación sugiere que estos grandes modelos de lenguaje (LLM) podrían utilizarse para ayudar a los médicos en formación, enfermeras y médicos generales a clasificar a los pacientes más rápidamente y aliviar la presión sobre los servicios de salud.
El estudio fue presentado por el Dr. Manjith Narayanan, consultor en neumología pediátrica en el Royal Hospital for Children and Young People, Edimburgo y profesor clínico honorario de la Universidad de Edimburgo, Reino Unido. Dijo: «Los modelos de lenguaje grandes como ChatGPT han cobrado importancia en el último año y medio por su capacidad de entender aparentemente el lenguaje natural y proporcionar respuestas que pueden simular adecuadamente una conversación similar a la humana. Estas herramientas tienen varias aplicaciones potenciales en medicina. Mi motivación para llevar a cabo esta investigación fue evaluar qué tan bien los LLM pueden ayudar a los médicos en la vida real».
Para investigar esto, el Dr. Narayanan utilizó escenarios clínicos que ocurren con frecuencia en la medicina respiratoria pediátrica. Los escenarios fueron proporcionados por otros seis expertos en medicina respiratoria pediátrica y abordaron temas como fibrosis quística, asma, trastornos respiratorios del sueño, disnea e infecciones torácicas. Todos eran escenarios en los que no hay un diagnóstico obvio y en los que no hay evidencia publicada, pautas o consenso de expertos que apunten a un diagnóstico o plan específico.
A diez médicos en formación con menos de cuatro meses de experiencia clínica en pediatría se les dio una hora en la que podían usar Internet, pero no cualquier chatbot, para resolver cada escenario con una respuesta descriptiva de 200 a 400 palabras. Cada escenario también se presentó a los tres chatbots.
Seis expertos en neumología pediátrica evaluaron todas las respuestas en cuanto a su corrección, exhaustividad, utilidad, verosimilitud y coherencia. También se les pidió que indicaran si creían que cada respuesta había sido generada por humanos o por un chatbot y que le otorgaran a cada respuesta una puntuación total de nueve.
Las soluciones proporcionadas por la versión 3.5 de ChatGPT obtuvieron una puntuación media de siete sobre nueve en total y se consideró que eran más parecidas a las humanas que las respuestas de los otros chatbots. Bard obtuvo una puntuación media de seis sobre nueve y se calificó como más «coherente» que los médicos en formación, pero en otros aspectos no fue ni mejor ni peor que ellos. Bing obtuvo una puntuación media de cuatro sobre nueve, la misma que los médicos en formación en general. Los expertos identificaron de forma fiable las respuestas de Bing y Bard como no humanas.
El Dr. Narayanan dijo: «Nuestro estudio es el primero, hasta donde sabemos, en poner a prueba los LLM con médicos en formación en situaciones que reflejan la práctica clínica de la vida real. Lo hicimos permitiendo que los médicos en formación tuvieran acceso completo a los recursos disponibles en Internet, como lo harían en la vida real. Esto aleja el enfoque de la prueba de memoria, donde hay una clara ventaja para los LLM. Por lo tanto, este estudio nos muestra otra forma en que podríamos usar los LLM y lo cerca que estamos de la aplicación clínica diaria habitual.
«No hemos probado directamente cómo funcionaría el LLM en roles que atienden a pacientes. Sin embargo, podría ser utilizado por enfermeras de clasificación, médicos en formación y médicos de atención primaria, que suelen ser los primeros en evaluar a un paciente».
Los investigadores no encontraron ningún caso obvio de «alucinaciones» (información aparentemente inventada) con ninguno de los tres LLM.
«Aunque en nuestro estudio no vimos ningún caso de alucinación por parte de los médicos en formación, debemos ser conscientes de esta posibilidad y crear medidas de mitigación», añadió el Dr. Narayanan. Bing, Bard y los médicos en formación dieron ocasionalmente respuestas que se consideraron irrelevantes para el contexto.
El Dr. Narayanan y sus colegas ahora planean probar los chatbots con médicos más experimentados y analizar programas de LLM más nuevos y avanzados.
Hilary Pinnock es presidenta del Consejo de Educación de la ERS y profesora de Medicina Respiratoria de Atención Primaria en la Universidad de Edimburgo (Reino Unido) y no participó en la investigación. «Es un estudio fascinante. Es alentador, pero quizás también un poco aterrador, ver cómo una herramienta de inteligencia artificial ampliamente disponible como ChatGPT puede brindar soluciones a casos complejos de enfermedades respiratorias en niños. Sin duda, señala el camino hacia un nuevo y valiente mundo de atención asistida por inteligencia artificial».
«Sin embargo, como señalan los investigadores, antes de comenzar a utilizar la IA en la práctica clínica habitual, debemos estar seguros de que no creará errores, ya sea por ‘alucinación’ de información falsa o porque haya sido entrenada con datos que no representan de manera equitativa a la población a la que servimos. Como han demostrado los investigadores, la IA promete una nueva forma de trabajar, pero necesitamos realizar pruebas exhaustivas de precisión y seguridad clínicas, una evaluación pragmática de la eficiencia organizacional y una exploración de las implicaciones sociales antes de incorporar esta tecnología a la atención de rutina».
Más información:
Resumen n.º: OA2762 «Escenarios clínicos en neumología pediátrica: ¿pueden los modelos de lenguaje grandes tener mejores resultados que los médicos en formación?», por Manjith Narayanan et al. Presentado en la sesión «Atención respiratoria en la era digital: aplicaciones innovadoras y su evidencia» a las 09:30-10:45 CEST el lunes 9 de septiembre de 2024. [k4.ersnet.org/prod/v2/Front/Pr … ?e=549&session=17916]
Proporcionado por la Sociedad Respiratoria Europea
Citación:ChatGPT supera a los médicos en formación en la evaluación de enfermedades respiratorias complejas en niños (8 de septiembre de 2024) recuperado el 8 de septiembre de 2024 de https://medicalxpress.com/news/2024-09-chatgpt-outperforms-trainee-doctors-complex.html
Este documento está sujeto a derechos de autor. Salvo que se haga un uso legítimo con fines de estudio o investigación privados, no se podrá reproducir ninguna parte del mismo sin autorización por escrito. El contenido se ofrece únicamente con fines informativos.