Cada célula de su cuerpo contiene la misma secuencia genética, pero cada célula expresa solo un subconjunto de esos genes. Estos patrones de expresión génica específicos de células, que aseguran que una célula cerebral sea diferente de una célula de la piel, se determinan en parte por la estructura tridimensional del material genético, que controla la accesibilidad de cada gen.
Los químicos del MIT ahora han creado una nueva forma de determinar esas estructuras del genoma 3D, utilizando inteligencia artificial generativa. Su técnica puede predecir miles de estructuras en solo minutos, por lo que es mucho más rápida que los métodos experimentales existentes para analizar las estructuras.
Usando esta técnica, los investigadores podrían estudiar más fácilmente cómo la organización 3D del genoma afecta los patrones y funciones de expresión génica de las células individuales.
«Nuestro objetivo era tratar de predecir la estructura del genoma tridimensional de la secuencia de ADN subyacente», dice Bin Zhang, profesor asociado de química y autor principal del estudio. «Ahora que podemos hacer eso, lo que pone esta técnica a la par con las técnicas experimentales de vanguardia, realmente puede abrir muchas oportunidades interesantes».
Los estudiantes graduados del MIT Greg Schuette y Zhuohan Lao son los autores principales del artículo, que aparece hoy en Avances científicos.
De secuencia a estructura
Dentro del núcleo celular, el ADN y las proteínas forman un complejo llamado cromatina, que tiene varios niveles de organización, lo que permite que las células cubren 2 metros de ADN en un núcleo que es solo una centésima parte de un milímetro de diámetro. Largos hilos de viento de ADN alrededor de proteínas llamadas histonas, dando lugar a una estructura algo así como cuentas en una cuerda.
Las etiquetas químicas conocidas como modificaciones epigenéticas se pueden unir al ADN en ubicaciones específicas, y estas etiquetas, que varían según el tipo de celda, afectan el plegamiento de la cromatina y la accesibilidad de los genes cercanos. Estas diferencias en la conformación de la cromatina ayudan a determinar qué genes se expresan en diferentes tipos de células, o en diferentes momentos dentro de una célula dada.
En los últimos 20 años, los científicos han desarrollado técnicas experimentales para determinar las estructuras de cromatina. Una técnica ampliamente utilizada, conocida como Hi-C, funciona al unir juntos las hilos de ADN vecinos en el núcleo de la célula. Luego, los investigadores pueden determinar qué segmentos se encuentran cerca de otros triturando el ADN en muchas piezas pequeñas y secuenciándolo.
Este método se puede usar en grandes poblaciones de células para calcular una estructura promedio para una sección de cromatina, o en células individuales para determinar estructuras dentro de esa célula específica. Sin embargo, las técnicas HI-C y similares son intensivas en mano de obra, y puede tomar aproximadamente una semana generar datos de una celda.
Para superar esas limitaciones, Zhang y sus alumnos desarrollaron un modelo que aprovecha los avances recientes en la IA generativa para crear una forma rápida y precisa de predecir las estructuras de cromatina en células individuales. El modelo de IA que diseñaron puede analizar rápidamente las secuencias de ADN y predecir las estructuras de cromatina que esas secuencias podrían producir en una célula.
«El aprendizaje profundo es realmente bueno en el reconocimiento de patrones», dice Zhang. «Nos permite analizar segmentos de ADN muy largos, miles de pares de bases y descubrir cuál es la información importante codificada en esos pares de bases de ADN».
El cromógeno, el modelo que crearon los investigadores, tiene dos componentes. El primer componente, un modelo de aprendizaje profundo enseñado a «leer» el genoma, analiza la información codificada en la secuencia de ADN subyacente y los datos de accesibilidad de cromatina, este último está ampliamente disponible y específico de tipo celular.
El segundo componente es un modelo de IA generativo que predice conformaciones de cromatina físicamente precisas, ya que ha sido entrenado en más de 11 millones de conformaciones de cromatina. Estos datos se generaron a partir de experimentos utilizando DIP-C (una variante de HI-C) en 16 células de una línea de linfocitos B humanos.
Cuando se integra, el primer componente informa el modelo generativo cómo el entorno específico del tipo de célula influye en la formación de diferentes estructuras de cromatina, y este esquema captura efectivamente las relaciones de estructura de secuencia. Para cada secuencia, los investigadores usan su modelo para generar muchas estructuras posibles. Esto se debe a que el ADN es una molécula muy desordenada, por lo que una sola secuencia de ADN puede dar lugar a muchas conformaciones posibles diferentes.
«Un factor de complicación importante para predecir la estructura del genoma es que no hay una solución única a la que apuntemos. Hay una distribución de estructuras, sin importar qué parte del genoma esté viendo. Predecir eso mismo La distribución estadística complicada y de alta dimensión es algo increíblemente difícil de hacer «, dice Schuette.
Análisis rápido
Una vez entrenado, el modelo puede generar predicciones en una escala de tiempo mucho más rápida que HI-C u otras técnicas experimentales.
«Mientras que puede pasar seis meses ejecutando experimentos para obtener algunas docenas de estructuras en un tipo de célula determinada, puede generar mil estructuras en una región en particular con nuestro modelo en 20 minutos en solo una GPU», dice Schuette.
Después de entrenar su modelo, los investigadores lo usaron para generar predicciones de estructura para más de 2,000 secuencias de ADN, luego las compararon con las estructuras determinadas experimentalmente para esas secuencias. Descubrieron que las estructuras generadas por el modelo eran las mismas o muy similares a las observadas en los datos experimentales.
«Por lo general, observamos cientos o miles de conformaciones para cada secuencia, y eso le da una representación razonable de la diversidad de las estructuras que una región en particular puede tener», dice Zhang. «Si repite su experimento varias veces, en diferentes células, es muy probable que termine con una conformación muy diferente. Eso es lo que nuestro modelo está tratando de predecir».
Los investigadores también encontraron que el modelo podría hacer predicciones precisas para los datos de los tipos de células distintos de la que fue entrenada. Esto sugiere que el modelo podría ser útil para analizar cómo las estructuras de cromatina difieren entre los tipos de células y cómo esas diferencias afectan su función. El modelo también podría usarse para explorar diferentes estados de cromatina que pueden existir dentro de una sola célula, y cómo esos cambios afectan la expresión génica.
Otra posible aplicación sería explorar cómo las mutaciones en una secuencia de ADN particular cambian la conformación de la cromatina, lo que podría arrojar luz sobre cómo tales mutaciones pueden causar enfermedad.
«Hay muchas preguntas interesantes que creo que podemos abordar con este tipo de modelo», dice Zhang.
Los investigadores han puesto todos sus datos y el modelo a disposición de otros que deseen usarlos.
La investigación fue financiada por los Institutos Nacionales de Salud.