Cuando se trata de secuenciar el genoma humano, «completo» siempre ha sido un término relativo. El primero, descifrado hace 20 años, incluía la mayoría de las regiones que codifican proteínas, pero dejó intactas alrededor de 200 millones de bases de ADN, el 8% del genoma humano. Incluso cuando se «terminaron» genomas adicionales, algunos tramos quedaron fuera de alcance, porque los segmentos repetitivos de ADN confundían las tecnologías de secuenciación de la época. Ahora, un esfuerzo internacional de base ha resuelto esas bases difíciles de leer, produciendo el genoma humano más completo hasta el momento.
En seis artículos en Ciencialos Consorcio Telómero a Telómero (T2T)—llamado así por las tapas de los extremos de los cromosomas— llena todos menos cinco de los cientos de puntos problemáticos restantes, dejando solo 10 millones de bases y el cromosoma Y solo se conoce aproximadamente. Y hoy, el consorcio T2T anunció en un tweet que había depositado un ensamblaje de secuencia correcto de la Y perdida.
«No creo que hubiéramos podido imaginar esto ni siquiera hace 5 años, ciertamente no hace 10 años», dice el bioinformático Ewan Birney, subdirector del Laboratorio Europeo de Biología Molecular y parte del Proyecto Genoma Humano original. «Es un tour de force .” Los investigadores de T2T dicen que los tramos recién secuenciados revelan puntos críticos para la evolución genética y subrayan la caótica historia del genoma humano. “Realmente nos da una idea de las regiones del genoma que han sido invisibles”, dice Deanna Church, genómica de Inscripta, una empresa de edición de genes.
Las secuencias del genoma que antes eran indescifrables y que ahora se han hecho visibles incluyen los telómeros protectores y las protuberancias densas llamadas centrómeros, que normalmente residen en el medio de cada cromosoma y ayudan a orquestar su replicación. También se revelan casi por completo los brazos cortos de los cinco cromosomas donde los centrómeros están sesgados hacia un extremo. Se sabía que esos brazos cortos contenían decenas de genes que codifican la columna vertebral de los ribosomas, las fábricas de proteínas de la célula.
Cuando Birney, Church y sus colegas presentaron el primer borrador de un genoma humano en 2001, e incluso después de que lo «completaron» y lo publicaron en 2004, las máquinas secuenciadoras y el software de ensamblaje del genoma no pudieron atravesar áreas donde la secuencia de ADN contenía elementos muy repetitivos. tramos de bases: las repeticiones podrían omitirse con demasiada facilidad o sus bases se unirían incorrectamente. A medida que la tecnología de secuenciación mejoró y los costos disminuyeron, los científicos redujeron la cantidad de brechas o secuencias mal ensambladas, lo que culminó en 2017 con el lanzamiento de un genoma humano llamado GRCh38. Con menos de 1000 lagunas, se convirtió para muchos en la “referencia” con la que se comparan otros genomas humanos.
Pero Karen Miga y Adam Phillippy querían hacerlo mejor. Miga, genetista de la Universidad de California, Santa Cruz, anhelaba aprender las secuencias exactas del distintivo ADN «satélite» que ayuda a formar los centrómeros. Mientras tanto, Phillippy, un bioinformático del Instituto Nacional de Investigación del Genoma Humano, estaba ocupado aprovechando nuevas tecnologías de secuenciación que podían leer tramos muy largos de ADN, reduciendo la necesidad de ensamblar secuencias más cortas. Después de reunirse en una conferencia, unieron fuerzas. Luego, en 2019, Phillippy informó que habían logrado secuenciar el cromosoma X de principio a fin, lo que inspiró a docenas de otros investigadores a unirse a la causa. “Realmente cobró vida propia”, dice Miga.
Para simplificar la tarea, decidieron usar una línea celular anonimizada que se derivó hace más de 20 años de un crecimiento inusual extirpado del útero de una mujer: un embarazo fallido llamado lunar, producido cuando un espermatozoide entró en un óvulo que carecía de su propio conjunto de cromosomas. Con solo el material genético de los espermatozoides, tales óvulos no pueden convertirse en un embrión, pero aún pueden replicarse, especialmente si los espermatozoides entregan un cromosoma X en lugar de Y. En una gran ayuda para el proyecto, ambos miembros de los 23 pares de cromosomas de la línea celular resultante son idénticos. Eso «hizo una gran diferencia» para eliminar las brechas porque los secuenciadores no tenían que resolver las diferencias entre los cromosomas de los padres, dice Robert Waterston, genetista de la Universidad de Washington, Seattle, quien ayudó a dirigir el Proyecto Genoma Humano.
El grupo T2T combinó tecnologías de secuenciación, incluido el llamado dispositivo de nanoporos que podía leer 100 000 bases a la vez y otro secuenciador que era más preciso pero solo hacía unas 10 000 bases a la vez. Una mejora final del último método aumentó la precisión y, en conjunto, los tres enfoques pudieron pulir todos menos cinco de los puntos problemáticos finales. “Solo viendo las múltiples formas en que fueron después de esto [shows] estos son problemas realmente difíciles”, dice Waterston.
Los aproximadamente 200 millones de bases finalmente en el orden correcto y en el lugar correcto incluyen más de 1900 genes, la mayoría de ellos copias de genes conocidos. Los investigadores catalogaron regiones duplicadas y elementos móviles: material genético de virus que se incorporaron al genoma. Al secuenciar cada centrómero, aprendieron que las regiones duplicadas varían mucho en tamaño, algo inesperado porque estas protuberancias tienen el mismo propósito en cada cromosoma.
Los cortos brazos cromosómicos contenían otra sorpresa. Como era de esperar, incluyeron múltiples copias, 400 en total, de los genes que codifican el ARN que se usa para producir ribosomas. “Este ADNr fue la última ficha de dominó en caer”, ya que fue el más difícil de secuenciar, dice Miga.
Los brazos cortos también están «llenos hasta los topes de [other] se repite”, dice Jennifer Gerton, bióloga cromosómica del Instituto Stowers para la Investigación Médica. Estos incluyen elementos móviles, segmentos duplicados y otros tipos de ADN repetitivo, así como muchas copias de genes de otras partes del genoma. “Es sorprendente lo dinámico que puede ser el genoma humano”, dice Church. En cinco puntos a lo largo de estos cromosomas, el revoltijo resultante es tan largo que los investigadores todavía no pueden determinar claramente el orden de las bases, aunque tienen una idea aproximada de la secuencia, dice Gerton.
Los brazos cortos son probablemente puntos críticos para la evolución de los genes, señala Phillippy, ya que las copias de genes estacionadas allí son libres de mutar y asumir nuevas funciones. El catálogo de duplicaciones también podría arrojar luz sobre trastornos neurológicos y del desarrollo, que se han relacionado con variaciones en el número de copias de secuencias específicas. Es probable que las modificaciones químicas del ADN en las áreas repetitivas complejas también desempeñen un papel en la enfermedad, y esos cambios han sido mapeados. Debido a que la línea celular utilizada carecía de un cromosoma Y, el grupo T2T secuenció uno de un genoma bien estudiado perteneciente al biólogo de sistemas de la Universidad de Harvard Leonid Peshkin (ver barra lateral, a continuación).
A pesar de su último hito, los secuenciadores del genoma humano no están haciendo las maletas. “Todavía queda trabajo por hacer”, dice el codirector del Proyecto Genoma Humano, Richard Gibbs, genetista de la Facultad de Medicina de Baylor. Él y otros investigadores enfatizan que el campo ahora necesita obtener secuencias genómicas igualmente completas de una mayor diversidad de personas para buscar variaciones en los brazos cortos y otras regiones difíciles de leer, que podrían desempeñar un papel en enfermedades o rasgos.
El equipo de T2T ha comenzado descifrando 70 genomas más, con una meta de 350 de personas de diversas ascendencias. Estos genomas, secuenciados como parte del Consorcio de Referencia del Pangenoma Humano, son más difíciles de terminar porque no tienen pares de cromosomas idénticos. Entonces, por ahora, el equipo se ha conformado con genomas de alta calidad que colocan la mayor cantidad posible de bases en sus cromosomas correctos. A continuación, los investigadores planean aplicar todos sus métodos al genoma completo de Peshkin. Y, finalmente, Phillippy dice: «Queremos que cada genoma sea telómero a telómero».