Investigadores de los Institutos Gladstone, el Instituto Broad del MIT y Harvard, y el Instituto del Cáncer Dana-Farber recurrieron a la inteligencia artificial (IA) para ayudarlos a comprender cómo las grandes redes de genes humanos interconectados controlan la función de las células y cómo las interrupciones en esas redes causa de enfermedad.
Los modelos de lenguaje extenso, también conocidos como modelos básicos, son sistemas de IA que aprenden conocimientos fundamentales a partir de cantidades masivas de datos generales y luego aplican esos conocimientos para realizar nuevas tareas, un proceso llamado aprendizaje por transferencia. Estos sistemas recientemente ganaron la atención general con el lanzamiento de ChatGPT, un chatbot basado en un modelo de OpenAI.
En el nuevo trabajo, publicado en la revista Naturaleza, la investigadora asistente de Gladstone, Christina Theodoris, MD, Ph.D., desarrolló un modelo básico para comprender cómo interactúan los genes. El nuevo modelo, denominado Geneformer, aprende de cantidades masivas de datos sobre interacciones genéticas de una amplia gama de tejidos humanos y transfiere este conocimiento para hacer predicciones sobre cómo las cosas podrían salir mal en una enfermedad.
Theodoris y su equipo usaron Geneformer para arrojar luz sobre cómo las células del corazón se alteran en las enfermedades del corazón. Este método, sin embargo, también puede abordar muchos otros tipos de células y enfermedades.
«Geneformer tiene amplias aplicaciones en muchas áreas de la biología, incluido el descubrimiento de posibles objetivos farmacológicos para enfermedades», dice Theodoris, quien también es profesor asistente en el Departamento de Pediatría de UC San Francisco. «Este enfoque mejorará en gran medida nuestra capacidad para diseñar terapias de corrección de redes en enfermedades en las que el progreso se ha visto obstaculizado por datos limitados».
Theodoris diseñó Geneformer durante una beca posdoctoral con X. Shirley Liu, Ph.D., exdirectora del Centro de Epigenética del Cáncer Funcional del Instituto Oncológico Dana-Farber, y Patrick Ellinor, MD, Ph.D., director de Cardiovascular Disease Iniciativa en el Instituto Broad, ambos autores del nuevo estudio.
Una vista de red
Muchos genes, cuando están activos, desencadenan cascadas de actividad molecular que provocan que otros genes aumenten o disminuyan su actividad. Algunos de esos genes, a su vez, afectan a otros genes, o retroceden y ponen freno al primer gen. Entonces, cuando un científico esboza las conexiones entre unas pocas docenas de genes relacionados, el mapa de red resultante a menudo parece una telaraña enredada.
Si mapear solo un puñado de genes de esta manera es complicado, tratar de comprender las conexiones entre los 20,000 genes en el genoma humano es un desafío formidable. Pero un mapa de red tan masivo ofrecería a los investigadores una idea de cómo las redes enteras de genes cambian con la enfermedad y cómo revertir esos cambios.
«Si un fármaco se dirige a un gen que es periférico dentro de la red, podría tener un pequeño impacto en el funcionamiento de una célula o solo controlar los síntomas de una enfermedad», dice Theodoris. «Pero al restaurar los niveles normales de genes que juegan un papel central en la red, se puede tratar el proceso de la enfermedad subyacente y tener un impacto mucho mayor».
Inteligencia artificial ‘aprendizaje de transferencia’
Por lo general, para mapear redes de genes, los investigadores se basan en grandes conjuntos de datos que incluyen muchas células similares. Utilizan un subconjunto de sistemas de IA, llamados plataformas de aprendizaje automático, para elaborar patrones dentro de los datos. Por ejemplo, un algoritmo de aprendizaje automático podría entrenarse en una gran cantidad de muestras de pacientes con y sin enfermedades cardíacas, y luego aprender los patrones de la red de genes que diferencian las muestras enfermas de las sanas.
Sin embargo, los modelos estándar de aprendizaje automático en biología están capacitados para realizar una sola tarea. Para que los modelos realicen una tarea diferente, deben volver a entrenarse desde cero con nuevos datos. Entonces, si los investigadores del primer ejemplo ahora quisieran identificar células enfermas de riñón, pulmón o cerebro de sus contrapartes sanas, tendrían que comenzar de nuevo y entrenar un nuevo algoritmo con datos de esos tejidos.
El problema es que, para algunas enfermedades, no hay suficientes datos existentes para entrenar estos modelos de aprendizaje automático.
En el nuevo estudio, Theodoris, Ellinor y sus colegas abordaron este problema aprovechando una técnica de aprendizaje automático llamada «aprendizaje de transferencia» para entrenar a Geneformer como un modelo fundamental cuyo conocimiento central se puede transferir a nuevas tareas.
En primer lugar, «entrenaron previamente» a Geneformer para que tuviera una comprensión fundamental de cómo interactúan los genes al proporcionarle datos sobre el nivel de actividad de los genes en aproximadamente 30 millones de células de una amplia gama de tejidos humanos.
Para demostrar que el enfoque de aprendizaje por transferencia estaba funcionando, los científicos ajustaron Geneformer para hacer predicciones sobre las conexiones entre genes, o si la reducción de los niveles de ciertos genes causaría enfermedades. Geneformer pudo hacer estas predicciones con una precisión mucho mayor que los enfoques alternativos debido al conocimiento fundamental que obtuvo durante el proceso de preentrenamiento.
Además, Geneformer pudo hacer predicciones precisas incluso cuando solo se mostró una cantidad muy pequeña de ejemplos de datos relevantes.
«Esto significa que Geneformer podría aplicarse para hacer predicciones en enfermedades en las que el progreso de la investigación ha sido lento porque no tenemos acceso a conjuntos de datos lo suficientemente grandes, como enfermedades raras y aquellas que afectan tejidos que son difíciles de muestrear en la clínica», dice Theodoris. .
Lecciones para las enfermedades del corazón
A continuación, el equipo de Theodoris se dispuso a utilizar el aprendizaje por transferencia para avanzar en los descubrimientos sobre enfermedades cardíacas. Primero le pidieron a Geneformer que predijera qué genes tendrían un efecto perjudicial en el desarrollo de los cardiomiocitos, las células musculares del corazón.
Entre los principales genes identificados por el modelo, muchos ya se habían asociado con enfermedades del corazón.
«El hecho de que el modelo predijera genes que ya sabíamos que eran realmente importantes para las enfermedades cardíacas nos dio una confianza adicional de que podía hacer predicciones precisas», dice Theodoris.
Sin embargo, otros genes potencialmente importantes identificados por Geneformer no se habían asociado previamente con enfermedades del corazón, como el gen TEAD4. Cuando los investigadores extrajeron TEAD4 de los cardiomiocitos en el laboratorio, las células ya no podían latir con tanta fuerza como las células sanas.
Por lo tanto, Geneformer había utilizado el aprendizaje por transferencia para llegar a una nueva conclusión: aunque no había recibido ninguna información sobre las células que carecían de TEAD4, predijo correctamente el importante papel que desempeña TEAD4 en la función de los cardiomiocitos.
Finalmente, el grupo le pidió a Geneformer que predijera qué genes deberían ser el objetivo para hacer que los cardiomiocitos enfermos se parezcan a las células sanas a nivel de red de genes. Cuando los investigadores probaron dos de los objetivos propuestos en células afectadas por cardiomiopatía (una enfermedad del músculo cardíaco), descubrieron que la eliminación de los genes predichos mediante la tecnología de edición de genes CRISPR restauró la capacidad de latidos de los cardiomiocitos enfermos.
«En el curso de aprender cómo se ve una red de genes normal y cómo se ve una red de genes enfermos, Geneformer pudo descubrir qué características se pueden abordar para cambiar entre los estados sanos y enfermos», dice Theodoris. «El enfoque de transferencia de aprendizaje nos permitió superar el desafío de los datos limitados de los pacientes para identificar de manera eficiente las posibles proteínas a las que atacar con medicamentos en las células enfermas».
«Un beneficio de usar Geneformer fue la capacidad de predecir qué genes podrían ayudar a cambiar las células entre estados sanos y enfermos», dice Ellinor. «Pudimos validar estas predicciones en cardiomiocitos en nuestro laboratorio en el Instituto Broad».
Los investigadores planean expandir la cantidad y los tipos de células que Geneformer ha analizado para seguir aumentando su capacidad de analizar redes de genes. También han hecho que el modelo sea de código abierto para que otros científicos puedan usarlo.
«Con los enfoques estándar, debe volver a entrenar un modelo desde cero para cada nueva aplicación», dice Theodoris. «Lo realmente emocionante de nuestro enfoque es que el conocimiento fundamental de Geneformer sobre las redes de genes ahora se puede transferir para responder muchas preguntas biológicas, y esperamos ver qué hacen otras personas con él».
Más información:
Patrick Ellinor, Transfer learning permite predicciones en biología de redes, Naturaleza (2023). DOI: 10.1038/s41586-023-06139-9. www.nature.com/articles/s41586-023-06139-9
Citación: El sistema de inteligencia artificial predice las consecuencias de las modificaciones genéticas (31 de mayo de 2023) recuperado el 31 de mayo de 2023 de https://medicalxpress.com/news/2023-05-artificial-intelligence-consequences-gene-modifications.html
Este documento está sujeto a derechos de autor. Aparte de cualquier trato justo con fines de estudio o investigación privados, ninguna parte puede reproducirse sin el permiso por escrito. El contenido se proporciona únicamente con fines informativos.