Un equipo de investigadores del Departamento de Asuntos de Veteranos, el Laboratorio Nacional Oak Ridge, la Escuela de Salud Pública TH Chan de Harvard, la Escuela de Medicina de Harvard y el Hospital Brigham and Women’s ha desarrollado una técnica novedosa basada en el aprendizaje automático para explorar e identificar relaciones entre conceptos médicos. utilizando datos de registros de salud electrónicos a través de múltiples proveedores de atención médica.
El método, llamado Knowledge Extraction via Sparse Embedding Regression, o KESER, se publicó recientemente en npj medicina digital. El proceso integra datos de registros médicos electrónicos de dos grandes instituciones, VA y Partners Health Care, con sede en Boston, y proporciona una selección de funciones automatizada que conduce a algoritmos de identificación de fenotipos y descubrimiento de conocimientos.
«KESER proporciona una visión de alto nivel de las relaciones entre el conocimiento clínico que no siempre podemos ver al atender a los pacientes a nivel individual o grupal», dijo la Dra. Katherine Liao, investigadora principal de KESER en VA Boston y profesora asociada. de medicina en la Escuela de Medicina de Harvard. «Esperamos traducir los métodos y resultados del estudio de las aplicaciones en la investigación clínica a los avances en la atención clínica».
El proyecto es parte del trabajo central de fenómica dirigido por los Dres. Kelly Cho y Mike Gaziano de VA Boston y Harvard bajo el programa Million Veteran Program, o MVP, de VA, un «programa de investigación nacional para aprender cómo los genes, el estilo de vida y las exposiciones militares afectan la salud y la enfermedad», según la Oficina de Investigación y Desarrollo de VA. Sitio web de MVP.
En 2016, ORNL comenzó a colaborar con VA en MVP-CHAMPION, una iniciativa de big data bajo el programa MVP, para crear una gran plataforma de medicina de precisión para alojar el vasto conjunto de datos de registros médicos de VA, que consta de registros de unos 24 millones de veteranos. . En un esfuerzo por fortalecer la innovación transversal en apoyo de numerosos proyectos de investigación bajo este programa conjunto VA-DOE, ORNL trabajó en estrecha colaboración con MVP Data Core de VA Boston y Harvard para identificar áreas de investigación específicas a seguir. Entre ellos se encontraba un esfuerzo por responder a la pregunta: ¿Qué elementos necesitamos encontrar dentro de los registros de salud electrónicos para identificar correctamente un fenotipo dado?
Trabajando con lo que creen que es la cohorte más grande de datos de atención médica utilizados para este tipo de investigación en los EE. UU., el equipo se propuso automatizar la identificación de relaciones fenotípicas al tiempo que brinda visibilidad a las suposiciones subyacentes del aprendizaje automático y los procesos de decisión.
Para hacer eso, diseñaron y construyeron la metodología KESER de cuatro pasos: convertir datos en un formato estructurado, construir una representación vectorial de baja dimensión de cada código médico, seleccionar características para atribuir importancia y mapear relaciones atribuidas como una red.
Procesamiento de datos y aprendizaje de representaciones
ORNL desempeñó un papel clave en el tedioso pero esencial trabajo de procesamiento y estructuración de una variedad de datos médicos (procedimientos de pacientes, diagnósticos y mediciones, así como notas médicas, información de recetas y más) de millones de pacientes en todo el VA y el cuidado de la salud de Partners. .
«Hay una gran cantidad de procesamiento de datos no estructurados que se lleva a cabo antes de terminar con una información estructurada que se puede poner en métodos estadísticos», dijo Edmon Begoli, jefe de la sección de Sistemas de IA de ORNL e investigador principal del proyecto MVP-CHAMPION. «El equipo pasó años trabajando con los datos para llevarlos a un estado en el que pudiéramos comenzar a usarlos para la investigación».
Con los datos procesados, el equipo creó una matriz de co-ocurrencia, que consta de más de 100 000 tipos de eventos o códigos de atención médica, esencialmente una tabla de datos masiva, pero escasa, con una fila y una columna para cada código de atención médica posible. Cada co-ocurrencia en el tiempo entre dos eventos ayuda a crear una imagen más clara y detallada de un fenotipo dado.
Aprovechando la infraestructura de big data y la experiencia en computación científica de ORNL, que son esenciales cuando se trabaja con esta escala de datos, el equipo trabajó para automatizar el preprocesamiento de datos y poner el proceso a disposición del público.
«Un investigador o institución puede descargar el código, almacenar sus datos en el formato correcto y nuestro proceso realizará todos los pasos necesarios para integrar sus datos con los de todos los demás», dijo Everett Rush, científico investigador de ORNL e ingeniero de datos líder en el proyecto.
El equipo de investigación se ha esforzado mucho en proteger la privacidad de los pacientes durante todo el proyecto. El equipo procesó todos los datos de VA dentro de la infraestructura segura de datos de salud protegidos de ORNL. Después de convertirlo en un nivel de resumen anónimo, lo compartieron con Harvard y otros colaboradores. La matriz KESER resultante no conserva vínculos con pacientes individuales.
«No hay forma de rastrear desde los resultados finales hasta un paciente individual porque estos son agregados», dijo Dallas Sacca, ingeniero senior de soluciones de ORNL. Sacca administra el enclave de datos de salud protegidos en ORNL y revisa cada dato para garantizar que cumpla con las pautas de HIPAA para la desidentificación antes de permitir que abandone el enclave.
Extracción de conocimiento
La matriz está llena de información anónima sobre esta inmensa cohorte de pacientes que se pueden probar con diferentes métodos, como KESER, para obtener nuevos conocimientos sobre la salud humana. Usando una serie de métodos estadísticos modernos, el equipo transformó datos resumidos en vectores, ajustó un modelo que codifica la relación de cada vector y extrajo las características más importantes y los pesos de características para cada fenotipo.
«Estos métodos estadísticos, que incluyen modelos gráficos gaussianos para el modelado disperso de estructuras de covarianza, son particularmente capaces de atribuir importancia que expone posibles relaciones causales, un concepto con el que la tecnología de IA clásica, como el aprendizaje profundo, tiende a tener problemas», dijo George. Ostrouchov, científico investigador sénior de ORNL y estadístico líder en el proyecto MVP-CHAMPION.
Después de ejecutar el método KESER, el equipo seleccionó ocho fenotipos, que incluyen depresión, artritis reumatoide y colitis ulcerosa, para explorar. Usando las características seleccionadas por KESER, entrenaron modelos para identificar los fenotipos de interés.
Investigación futura
Las posibilidades que ofrece la novedosa capacidad de KESER para anonimizar, integrar y analizar datos de múltiples instituciones de atención médica parecen ilimitadas.
Tianxi Cai, profesor de Informática Biomédica en la Facultad de Medicina de Harvard e investigador principal de KESER, dijo: «Estamos entusiasmados de tener un enfoque altamente escalable que puede manejar matrices de un orden de magnitud mayor que con las que estamos trabajando ahora».
El equipo ya está incorporando más descriptores clínicos en los gráficos de conocimiento. Además, el equipo ha comenzado a explorar los gráficos de conocimiento para comprender mejor las enfermedades emergentes.
«En una situación como COVID, por ejemplo, donde todos necesitan compartir datos y debemos comenzar a investigar todas las cosas diferentes que están relacionadas con esta enfermedad específica, potencialmente podría hacerlo con este sistema», dijo Chuan Hong. , profesor asistente en la Universidad de Duke, quien dirigió la investigación sobre el proyecto KESER como instructor en Harvard el año pasado. «Básicamente es plug-and-play; vas al almacén de datos, sigues el proceso de cuatro pasos e integras directamente tus resultados».
El potencial para futuras colaboraciones y descubrimientos puede ser el mayor éxito del proyecto. «Esta innovación facilitará las colaboraciones multicéntricas», escribió el equipo en Naturaleza«y acerque el campo a la promesa de crear redes distribuidas para el aprendizaje entre instituciones mientras se mantiene la privacidad del paciente».
La nueva herramienta de inteligencia artificial ORNL revoluciona el proceso para emparejar pacientes con cáncer con ensayos clínicos
Chuan Hong et al, Extracción de conocimiento clínico a través de regresión de incrustación dispersa (KESER) con datos de registros de salud electrónicos multicéntricos a gran escala, npj medicina digital (2021). DOI: 10.1038/s41746-021-00519-z
Citación: Los investigadores desarrollan un método novedoso para identificar relaciones médicas complejas (28 de abril de 2022) recuperado el 28 de abril de 2022 de https://medicalxpress.com/news/2022-04-method-complex-medical-relationships.html
Este documento está sujeto a derechos de autor. Aparte de cualquier trato justo con fines de estudio o investigación privados, ninguna parte puede reproducirse sin el permiso por escrito. El contenido se proporciona únicamente con fines informativos.