Los científicos de la UC Santa Cruz, junto con un consorcio de investigadores, han publicado un borrador del primer pangenoma humano, una nueva referencia utilizable para la genómica que combina el material genético de 47 individuos de diferentes orígenes ancestrales para permitir un análisis más profundo y preciso. comprensión de la diversidad genómica mundial.
Al agregar 119 millones de bases, las «letras» en las secuencias de ADN, a la referencia genómica existente, el pangenoma proporciona una representación de la diversidad genética humana que no era posible con un solo genoma de referencia. Es altamente preciso, más completo y aumenta drásticamente la detección de variantes en el genoma humano, como se muestra en una colección de artículos innovadores publicados hoy en las revistas. Naturaleza, Investigación del genoma, Naturaleza Biotecnologíay Métodos de la naturaleza.
El pangenoma fue producido por el Consorcio de Referencia del Pangenoma Humano (HPRC), codirigido por el Profesor Asociado de Ingeniería Biomolecular de la UCSC, Benedict Paten, y la Profesora Asistente de Ingeniería Biomolecular, Karen Miga, y ahora está disponible para su uso en un centro de ensamblaje en el Genoma de la UCSC. Navegador. Más de una docena de investigadores y estudiantes de la UCSC contribuyen a este proyecto, que continuará hasta 2024, cuando los investigadores planean publicar un pangenoma final con información genómica de 350 individuos.
«Estamos introduciendo más diversidad y equidad en la referencia mediante el muestreo de diversos seres humanos e incluyéndolos en esta estructura que todos pueden usar», dijo Paten, quien es el autor principal del documento marcador principal. «Un genoma no es suficiente para representar a todos; el pangenoma finalmente será algo inclusivo y representativo».
Entendiendo la variación genómica
El genoma de cada persona varía ligeramente, en alrededor de un 0,4 por ciento en comparación con la siguiente persona, en promedio, y comprender estas diferencias puede proporcionar información sobre su salud, ayudar a diagnosticar enfermedades, predecir resultados médicos y guiar tratamientos. El uso de la referencia del pangenoma mejorará la capacidad de los científicos para detectar y comprender la variación en estudios futuros.
Por lo general, cuando los científicos y los médicos estudian el genoma de un individuo para buscar variaciones, comparan el ADN de ese individuo con el de una referencia estándar para determinar dónde hay diferencias de uno o más pares de bases. Hasta ahora, el genoma de referencia ha estado representado principalmente por una sola secuencia para cada cromosoma humano, en su mayoría procedente de un individuo. Pero esta referencia tiene casi 20 años y es fundamentalmente limitada porque no puede representar la riqueza de variaciones genéticas presentes en la población humana. Esto introduce un problema llamado sesgo de referencia en el análisis del genoma.
Por el contrario, el nuevo pangenoma es una referencia que combina los genomas de 47 individuos de diversos orígenes ancestrales. El pangenoma parece una referencia lineal en las áreas donde las secuencias tienen las mismas bases y se expande para mostrar las áreas donde hay diferencias. Representa muchas versiones diferentes de la secuencia del genoma humano al mismo tiempo y brinda a los científicos un punto de comparación más preciso para la variación que está presente en algunas poblaciones pero no en otras.
«Un genoma no puede representar toda la rica variación que sabemos que se puede observar y estudiar en todo el mundo», dijo Miga, director del Centro de producción HPRC de la UCSC. «El objetivo número uno de la referencia del pangenoma humano es tratar de ampliar la representación de un recurso de referencia para que sea más inclusivo y más equitativo para estudiar la especie humana, como una colección de referencias y no solo una».
La variación genómica puede ser pequeña, consistiendo en diferencias de solo una o unas pocas bases de ADN, o puede ser variantes estructurales grandes, clasificadas como variantes que tienen 50 pares de bases o más. Estas variantes estructurales más grandes pueden tener importantes implicaciones para la salud. Hasta ahora, los investigadores no han podido identificar más del 70 por ciento de las variantes estructurales que existen en los genomas humanos debido a tecnologías limitadas y al sesgo de usar una sola secuencia de referencia.
De los 119 millones de nuevas bases añadidas a la referencia con el pangenoma, aproximadamente 90 millones de ellas se derivan de la variación estructural. Las variantes estructurales son complejas y pueden ser inversiones de secuencias, inserciones, eliminaciones o repeticiones en tándem: un segmento de dos o más bases repetidas numerosas veces. Estas nuevas bases ayudarán a los investigadores a estudiar regiones del genoma para las que antes no había referencia y, potencialmente, podrán asociar variantes estructurales con enfermedades en estudios futuros.
«Ahora, podemos mapear a más variantes estructurales, por lo que estamos encontrando características y áreas en el genoma que simplemente no estaban allí antes», dijo Miga. «Es emocionante porque nos permite observar la regulación genética de una manera única que no podíamos estudiar antes, porque esas áreas probablemente se habrían mapeado de manera inapropiada o simplemente se habrían ignorado por completo».
El uso de la referencia del pangenoma para el análisis genómico aumenta la detección de variantes estructurales en un 104 % en comparación con la detección con la referencia estándar. La referencia del pangenoma también aumenta la precisión de llamar a variantes pequeñas, aquellas de unas pocas bases de largo, en aproximadamente un 34 por ciento debido a la mayor cantidad de datos presentes en el pangenoma.
Cada ser humano lleva un par de cromosomas: un juego heredado de la madre y otro del padre. Los genomas individuales presentes en la referencia del pangenoma contienen información resuelta por haplotipos, lo que significa que puede distinguir con confianza los dos conjuntos parentales de cromosomas, una gran hazaña científica. Tener esta información ayudará a los científicos a comprender mejor cómo se heredan varios genes y enfermedades.
Esto también significa que la referencia actual en realidad incluye 94 secuencias genómicas distintas, con el objetivo de llegar a 700 para 2024.
Creando el pangenoma
El pangenoma fue posible gracias al desarrollo de técnicas computacionales avanzadas para alinear las múltiples secuencias del genoma en una sola referencia utilizable en una estructura llamada gráfico de pangenoma. Paten y los investigadores del laboratorio de genómica computacional de la UCSC ayudaron a liderar los esfuerzos de HPRC para desarrollar los métodos algorítmicos necesarios para crear esta estructura gráfica de pangenoma.
Debido a los métodos utilizados en este proyecto, todos los genomas dentro de la referencia del pangenoma son de una calidad y precisión extremadamente altas, cubriendo más del 99 por ciento de cada genoma humano con más del 99 por ciento de precisión.
«En la referencia lineal, solo teníamos una secuencia, una representación de cada gen», dijo Mobin Asri, un doctorado en bioinformática. candidato en UCSC y coautor del artículo principal. «Pero sabemos que nuestros genes tienen diferentes variaciones en la población humana. Usando el gráfico del pangenoma, queremos tener todas esas variaciones en una sola estructura, y un gráfico es una forma natural de hacerlo».
El proyecto HPRC se basa en gran medida en la tecnología de secuenciación de lectura larga y ultralarga para leer el ADN de muestras biológicas. Con los avances recientes, estas técnicas ahora pueden decodificar de miles a millones de pares de bases del genoma a la vez. Luego, los largos tramos de lecturas de ADN se ensamblan a través de algoritmos especializados en secuencias genómicas más completas. Idealmente, cada secuencia ensamblada debería representar la secuencia de un cromosoma.
Las lecturas largas contienen errores alrededor del uno por ciento del tiempo y los algoritmos de ensamblaje actuales no son perfectos, lo que puede causar que las secuencias ensambladas sean erróneas en algunas ubicaciones. Para verificar y corregir estos errores, los genomas individuales que se han secuenciado y ensamblado se mueven a través de múltiples herramientas, incluida una canalización de confiabilidad desarrollada por Asri. Una vez que han sido procesados por estas herramientas, los investigadores pueden garantizar que los ensamblajes sean precisos y completos.
Después de pasar por la tubería de Asri, los diversos genomas se compilan a través de métodos algorítmicos complejos en la estructura gráfica del pangenoma. Visualmente, el genoma gráfico permite a los investigadores ver las diferencias en las diversas secuencias de referencia como áreas divergentes en caminos que de otro modo serían compartidos.
Construyendo un recurso accesible
Los primeros 47 genomas diploides en el borrador del pangenoma se obtuvieron de personas que participaron en el Proyecto 1000 Genomas (1000G), un esfuerzo influyente que creó un catálogo de variación genética humana común a partir de muestras consentidas abiertamente y se completó en 2015. El estado de consentimiento de estas muestras permite que cualquier investigador acceda al recurso sin las barreras de privacidad que normalmente acompañan a la investigación del genoma, con el objetivo de hacer que el pangenoma sea accesible para la mayor cantidad de personas posible.
«Convertirse en un recurso común es algo fundamental para el éxito de una referencia del pangenoma humano», dijo Miga. «Tiene que tener la capacidad de ser accesible y abierto en todo el mundo a todos los investigadores para que podamos usarlo como base».
El equipo de HPRC se centra en la divulgación para garantizar que el pangenoma sea un recurso útil que se utilizará en clínicas de todo el mundo. Esto significa facilitar las anotaciones, los comentarios y las aportaciones de los investigadores que realizan estudios utilizando la referencia del pangenoma.
«El borrador del pangenoma es una importante prueba de principio que esperamos influya en mucha gente y les haga pensar en el pangenoma y cómo podría afectar su trabajo», dijo Paten. «Mirando hacia el futuro, vemos mucho compromiso con otros grupos: se necesitan muchas personas diferentes para construir algo que se convertirá en un gran recurso comunitario».
Junto con un enfoque en la accesibilidad, el proyecto HPRC tiene un equipo de ética dedicado centrado en las implicaciones sociales y legales de este proyecto. Están trabajando para anticipar problemas desafiantes y ayudar a guiar el consentimiento informado, priorizar el estudio de diferentes muestras, explorar posibles problemas regulatorios relacionados con la adopción clínica y trabajar con comunidades internacionales e indígenas para incorporar sus secuencias genómicas en estos esfuerzos más amplios.
Continuando con el legado y el trabajo futuro
El pangenoma humano es una continuación de los esfuerzos de décadas de los científicos de la UC Santa Cruz para comprender el código biológico que subyace a la vida humana.
En 2000, Jim Kent, entonces estudiante de posgrado de la UCSC y ahora científico investigador en el Instituto de Genómica y director del Navegador del Genoma de la UCSC, escribió el código que reunió el primer borrador de trabajo del genoma humano. Los científicos de la UCSC lo publicaron con acceso abierto para cualquiera que quisiera usarlo. Desde entonces, la UCSC ha estado a la vanguardia de la investigación genómica.
En abril de 2022, Karen Miga de UCSC codirigió el consorcio Telómero a telómero para ensamblar la primera secuenciación completa de un genoma humano, completando regiones de referencia complejas y faltantes que habían eludido a los científicos durante mucho tiempo.
«Desde el año 2000, hemos tenido una serie de representaciones cada vez más precisas de un genoma», dijo David Haussler, director científico del Instituto de Genómica de la UCSC, quien dirigió el equipo de la UCSC en el Proyecto Genoma Humano original y asesora sobre el proyecto pangenoma. «Pero no importa con qué precisión representes un genoma, eso no va a representar a toda la humanidad. Ahora es un punto de inflexión: ya no es la genómica del genoma humano estándar, sino la genómica para todos».
Los investigadores están avanzando hacia el objetivo de completar el pangenoma completo para 2024. El equipo está en proceso de reclutar nuevos individuos para representar algunas poblaciones no incluidas en el Proyecto 1000 Genomas, en particular personas de ascendencia africana y del Medio Oriente. Miga, como directora del Centro de producción de datos de la UCSC, encabezará estos esfuerzos en el futuro.
Además de completar la referencia final del pangenoma, los investigadores están trabajando para formar un proyecto internacional de pangenoma humano que establecería asociaciones con investigadores de todo el mundo. Estas asociaciones incluirían un intercambio bidireccional de habilidades y conocimientos, con el objetivo de poner las habilidades y la tecnología necesarias para crear genomas de referencia de alta calidad en manos de investigadores de todo el mundo para que puedan llevar a cabo su propia investigación.
Otros investigadores de la UCSC en el artículo principal incluyen a Marina Haukness, Glenn Hickey, Julian Lucas, Jean Monlong, Xian Chang, Jordan Eizenga, Charles Markello, Adam Novak, Hugh Olsen y Trevor Pesout.
Otras instituciones involucradas en el Consorcio de Referencia del Pangenoma Humano se pueden encontrar en la página principal del proyecto.
La financiación del HPRC fue proporcionada principalmente por el Instituto Nacional de Investigación del Genoma Humano.