Durante más de 20 años, los científicos se han basado en el genoma humano de referencia, una secuencia genética consensuada, como estándar con el que comparar otros datos genéticos. Utilizado en innumerables estudios, el genoma de referencia ha permitido identificar genes implicados en enfermedades específicas y rastrear la evolución de rasgos humanos, entre otras cosas.
Pero siempre ha sido una herramienta defectuosa. Uno de sus mayores problemas es que alrededor del 70 por ciento de sus datos provienen de un solo hombre de origen predominantemente africano-europeo cuyo ADN fue secuenciado durante el Proyecto Genoma Humano, el primer esfuerzo para capturar todo el ADN de una persona. Como resultado, puede decirnos poco sobre el 0,2 al uno por ciento de la secuencia genética que hace que cada una de las siete mil millones de personas en este planeta sea diferente entre sí, creando un sesgo inherente en los datos biomédicos que se cree son responsables de algunos de los problemas de salud. disparidades que afectan a los pacientes hoy en día. Muchas variantes genéticas que se encuentran en poblaciones no europeas, por ejemplo, no están representadas en absoluto en el genoma de referencia.
Durante años, los investigadores han pedido un recurso más inclusivo de la diversidad humana con el que diagnosticar enfermedades y guiar tratamientos médicos. Ahora, los científicos del Consorcio de Referencia del Pangenoma Humano han hecho un progreso innovador en la caracterización de la fracción de ADN humano que varía entre los individuos. Como publicaron recientemente en Naturalezahan ensamblado secuencias genómicas de 47 personas de todo el mundo en un llamado pangenoma en el que más del 99 por ciento de cada secuencia se representa con gran precisión.
Superpuestas unas a otras, estas secuencias revelaron casi 120 millones de pares de bases de ADN que no se habían visto antes.
Si bien todavía es un trabajo en progreso, el pangenoma es público y puede ser utilizado por científicos de todo el mundo como una nueva referencia estándar del genoma humano, dice Erich D. Jarvis de la Universidad Rockefeller, uno de los investigadores principales.
«Esta colección genómica compleja representa una diversidad genética humana significativamente más precisa que nunca antes», dice. «Con una mayor amplitud y profundidad de los datos genéticos a su disposición, y una mayor calidad de los ensamblajes del genoma, los investigadores pueden refinar su comprensión del vínculo entre los genes y los rasgos de la enfermedad y acelerar la investigación clínica».
Diversidad de abastecimiento
Terminado en 2003, el primer borrador del genoma humano era relativamente impreciso, pero se hizo más nítido con el paso de los años gracias a que se llenaron los vacíos, se corrigieron errores y se avanzó en la tecnología de secuenciación. El año pasado se alcanzó otro hito, cuando finalmente se secuenció el ocho por ciento final del genoma, principalmente ADN fuertemente enrollado que no codifica para proteínas y regiones repetitivas de ADN.
A pesar de este progreso, el genoma de referencia siguió siendo imperfecto, especialmente con respecto al crítico 0,2 a uno por ciento de ADN que representa la diversidad. El Consorcio de Referencia del Pangenoma Humano (HPRC), una colaboración financiada por el gobierno entre más de una docena de instituciones de investigación en los Estados Unidos y Europa, se lanzó en 2019 para abordar este problema.
En ese momento, Jarvis, uno de los líderes del consorcio, estaba perfeccionando la secuenciación avanzada y los métodos computacionales a través del Vertebrate Genomes Project, cuyo objetivo es secuenciar las 70 000 especies de vertebrados. Su laboratorio y otros colaboradores decidieron aplicar estos avances para ensamblajes de genomas diploides de alta calidad para revelar la variación dentro de un solo vertebrado: Homo sapiens.
Para recolectar una diversidad de muestras, los investigadores recurrieron al Proyecto 1000 Genomas, una base de datos pública de genomas humanos secuenciados que incluye más de 2500 individuos que representan 26 poblaciones geográfica y étnicamente variadas. La mayoría de las muestras provienen de África, hogar de la mayor diversidad humana del planeta.
«En muchos otros grandes proyectos de diversidad del genoma humano, los científicos seleccionaron principalmente muestras europeas», dice Jarvis. «Hicimos un esfuerzo decidido para hacer lo contrario. Estábamos tratando de contrarrestar los prejuicios del pasado».
Es probable que entre estas poblaciones se puedan encontrar variantes genéticas que podrían informar nuestro conocimiento de enfermedades comunes y raras.
Mamá, papá y niño
Pero para ampliar el acervo genético, los investigadores tuvieron que crear secuencias más nítidas y claras de cada individuo, y los enfoques desarrollados por los miembros del Vertebrate Genome Project y los consorcios asociados se utilizaron para resolver un problema técnico de larga data en el campo.
Cada persona hereda un genoma de cada padre, por lo que terminamos con dos copias de cada cromosoma, lo que nos da lo que se conoce como genoma diploide. Y cuando se secuencia el genoma de una persona, separar el ADN de los padres puede ser un desafío. Las técnicas y los algoritmos más antiguos han cometido errores de forma rutinaria al fusionar los datos genéticos de los padres de un individuo, lo que da como resultado una visión nublada. «Las diferencias entre los cromosomas de mamá y papá son más grandes de lo que la mayoría de la gente cree», dice Jarvis. «Mamá puede tener 20 copias de un gen y papá solo dos».
Con tantos genomas representados en un pangenoma, esa nube amenazaba con convertirse en una tormenta de confusión. Entonces, el HPRC se basó en un método desarrollado por Adam Phillippy y Sergey Koren en los Institutos Nacionales de Salud sobre «tríos» de padres e hijos: una madre, un padre y un niño cuyos genomas habían sido todos secuenciados. Usando los datos de mamá y papá, pudieron aclarar las líneas de herencia y llegar a una secuencia de mayor calidad para el niño, que luego usaron para el análisis del pangenoma.
Nuevas variaciones
El análisis de los investigadores de 47 personas arrojó 94 secuencias genómicas distintas, dos para cada conjunto de cromosomas, más el cromosoma Y sexual en los hombres.
Luego utilizaron técnicas computacionales avanzadas para alinear y superponer las 94 secuencias. De los 120 millones de pares de bases de ADN que no se habían visto anteriormente o que se encontraban en una ubicación diferente a la que se indicó en la referencia anterior, alrededor de 90 millones se derivan de variaciones estructurales, que son diferencias en el ADN de las personas que surgen cuando se reorganizan fragmentos de cromosomas. – movido, borrado, invertido o con copias adicionales de duplicaciones.
Es un descubrimiento importante, señala Jarvis, porque los estudios de los últimos años han establecido que las variantes estructurales juegan un papel importante en la salud humana, así como en la diversidad específica de la población. «Pueden tener efectos dramáticos en las diferencias de rasgos, enfermedades y funciones genéticas», dice. «Con tantos nuevos identificados, habrá muchos nuevos descubrimientos que antes no eran posibles».
llenando huecos
El ensamblaje del pangenoma también llena los vacíos que se debían a secuencias repetitivas o genes duplicados. Un ejemplo es el complejo principal de histocompatibilidad (MHC), un grupo de genes que codifican proteínas en la superficie de las células que ayudan al sistema inmunitario a reconocer antígenos, como los del virus SARS-CoV-2.
«Son realmente importantes, pero era imposible estudiar la diversidad de MHC utilizando los métodos de secuenciación más antiguos», dice Jarvis. «Estamos viendo una diversidad mucho mayor de lo que esperábamos. Esta nueva información nos ayudará a comprender cómo las respuestas inmunitarias contra patógenos específicos varían entre las personas». También podría conducir a mejores métodos para hacer coincidir a los donantes de trasplantes de órganos con los pacientes, o identificar a las personas en riesgo de desarrollar enfermedades autoinmunes.
El equipo también ha descubierto nuevas y sorprendentes características de los centrómeros, que se encuentran en el centro de los cromosomas y conducen la división celular, separándose a medida que las células se duplican. Las mutaciones en los centrómeros pueden provocar cánceres y otras enfermedades.
A pesar de tener secuencias de ADN altamente repetitivas, «los centrómeros son tan diversos de un haplotipo a otro que pueden representar más del 50 por ciento de las diferencias genéticas entre personas o haplotipos maternos y paternos incluso dentro de un mismo individuo», dice Jarvis. «Los centrómeros parecen ser una de las partes del cromosoma que evoluciona más rápidamente».
Construyendo una relación
Sin embargo, el pangenoma actual de 47 personas es solo un punto de partida. El objetivo final de HPRC es producir genomas de alta calidad y casi sin errores de al menos 350 individuos de diversas poblaciones para mediados de 2024, un hito que permitiría capturar alelos raros que confieren importantes rasgos adaptativos. Los tibetanos, por ejemplo, tienen alelos relacionados con el uso de oxígeno y la exposición a la luz ultravioleta que les permiten vivir en altitudes elevadas.
Un desafío importante en la recopilación de estos datos será ganarse la confianza de las comunidades que han visto abusos de datos biológicos en el pasado; por ejemplo, no hay muestras en el estudio actual de pueblos nativos americanos ni aborígenes, que durante mucho tiempo han sido ignorados o explotados por estudios científicos. Pero no es necesario retroceder mucho en el tiempo para encontrar ejemplos de uso poco ético de los datos genéticos: hace solo unos años, se comercializaron muestras de ADN de miles de africanos en varios países sin el conocimiento, el consentimiento o el beneficio de los donantes.
Estos delitos han sembrado la desconfianza hacia los científicos entre muchas poblaciones. Pero al no estar incluidos, algunos de estos grupos podrían permanecer genéticamente oscuros, lo que llevaría a la perpetuación de los sesgos en los datos y a las disparidades continuas en los resultados de salud.
«Es una situación compleja que requerirá mucha construcción de relaciones», dice Jarvis. «Hay una mayor sensibilidad ahora».
E incluso hoy en día, muchos grupos están dispuestos a participar. «Hay personas, instituciones y organismos gubernamentales de diferentes países que dicen: ‘Queremos ser parte de esto. Queremos que nuestra población esté representada'», dice Jarvis. «Ya estamos progresando».