Los modelos de inteligencia artificial que interpretan imágenes médicas prometen mejorar la capacidad de los médicos para realizar diagnósticos precisos y oportunos, al tiempo que reducen la carga de trabajo al permitir que los médicos ocupados se centren en casos críticos y deleguen tareas rutinarias a la IA.
Pero los modelos de IA que carecen de transparencia sobre cómo y por qué se realiza un diagnóstico pueden ser problemáticos. Este razonamiento opaco, también conocido como IA de «caja negra», puede disminuir la confianza del médico en la confiabilidad de la herramienta de IA y, por lo tanto, desalentar su uso. Esta falta de transparencia también podría inducir a error a los médicos a confiar demasiado en la interpretación de la herramienta.
En el ámbito de las imágenes médicas, una forma de crear modelos de IA más comprensibles y desmitificar la toma de decisiones de IA han sido las evaluaciones de prominencia, un enfoque que utiliza mapas de calor para determinar si la herramienta se está enfocando correctamente solo en las partes relevantes de un determinado imagen o enfocarse en partes irrelevantes de ella.
Los mapas de calor funcionan resaltando áreas en una imagen que influyeron en la interpretación del modelo de IA. Esto podría ayudar a los médicos humanos a ver si el modelo de IA se enfoca en las mismas áreas que ellos o si se enfoca por error en puntos irrelevantes en una imagen.
Pero un nuevo estudio, publicado en Naturaleza Inteligencia de máquina el 10 de octubre, muestra que, a pesar de todas sus promesas, es posible que los mapas de calor de prominencia aún no estén listos para el horario de máxima audiencia.
El análisis, dirigido por el investigador de la Facultad de Medicina de Harvard Pranav Rajpurkar, Matthew Lungren de Stanford y Adriel Saporta de la Universidad de Nueva York, cuantificó la validez de siete métodos de prominencia ampliamente utilizados para determinar con qué fiabilidad y precisión podían identificar patologías asociadas con 10 afecciones comúnmente diagnosticadas. en la radiografía, como lesiones pulmonares, derrame pleural, edema o estructuras cardíacas agrandadas. Para determinar el rendimiento, los investigadores compararon el rendimiento de las herramientas con el juicio de expertos humanos.
En el análisis final, las herramientas que utilizan mapas de calor basados en la prominencia tuvieron un rendimiento inferior en la evaluación de imágenes y en su capacidad para detectar lesiones patológicas, en comparación con los radiólogos humanos.
El trabajo representa el primer análisis comparativo entre los mapas de prominencia y el desempeño de expertos humanos en la evaluación de múltiples patologías de rayos X. El estudio también ofrece una comprensión granular de si ciertas características patológicas en una imagen pueden afectar el rendimiento de la herramienta de IA y cómo.
La función de mapa de prominencia ya se utiliza como herramienta de garantía de calidad en prácticas clínicas que emplean IA para interpretar métodos de detección asistidos por computadora, como la lectura de radiografías de tórax. Pero a la luz de los nuevos hallazgos, esta función se debe aplicar con precaución y una buena dosis de escepticismo, dijeron los investigadores.
«Nuestro análisis muestra que los mapas de prominencia aún no son lo suficientemente confiables para validar decisiones clínicas individuales tomadas por un modelo de IA», dijo Rajpurkar, profesor asistente de informática biomédica en HMS. «Identificamos limitaciones importantes que plantean serias preocupaciones de seguridad para su uso en la práctica actual».
Los investigadores advierten que debido a las importantes limitaciones identificadas en el estudio, los mapas de calor basados en la prominencia deben refinarse aún más antes de que se adopten ampliamente en los modelos clínicos de IA.
La base de código completa, los datos y el análisis del equipo están abiertos y disponibles para todos los interesados en estudiar este importante aspecto del aprendizaje automático clínico en aplicaciones de imágenes médicas.
Los coautores incluyeron a Xiaotong Gui, Ashwin Agrawal, Anuj Pareek, Jayne Seekins, Francis Blankenberg y Andrew Ng, todos de la Universidad de Stanford; Steven Truong y Chanh Nguyen, de VinBrain, Vietnam; y Van-Doan Ngo, del Hospital Internacional Vinmec, Vietnam.
Fuente de la historia:
Materiales proporcionado por Escuela Médica de Harvard. Original escrito por Ekaterina Pesheva. Nota: el contenido se puede editar por estilo y longitud.