Solo se necesitó un virus para paralizar la economía mundial y matar a millones de personas; sin embargo, los virólogos estiman que existen billones de virus aún desconocidos, muchos de los cuales podrían ser letales o tener el potencial de desencadenar la próxima pandemia. Ahora, tienen una lista nueva y muy larga de posibles sospechosos para interrogar. Al analizar cantidades sin precedentes de datos genómicos existentes, los científicos han descubierto más de 100 000 virus nuevos, incluidos nueve coronavirus y más de 300 relacionados con el virus de la hepatitis Delta, que puede causar insuficiencia hepática.
“Es un trabajo fundamental”, dice J. Rodney Brister, bioinformático de la Biblioteca Nacional de Medicina del Centro Nacional de Información Biotecnológica que no participó en el nuevo estudio. El trabajo amplía en un orden de magnitud el número de virus conocidos que utilizan ARN en lugar de ADN para sus genes. También “demuestra nuestra escandalosa falta de conocimiento sobre este grupo de organismos”, dice el ecologista de enfermedades Peter Daszak, presidente de EcoHealth Alliance, un grupo de investigación sin fines de lucro en la ciudad de Nueva York que está recaudando dinero para lanzar una encuesta global sobre virus. El trabajo también ayudará a lanzar la llamada genómica de petabytes: los análisis de cantidades previamente insondables de datos de ADN y ARN. (Un petabyte son 1015 bytes.)
Eso no era exactamente lo que el biólogo computacional Artem Babaian tenía en mente cuando estaba entre trabajos a principios de 2020. En cambio, simplemente tenía curiosidad acerca de cuántos coronavirus, además del virus que acababa de lanzar la pandemia de COVID-19, podrían ser encontrado en secuencias en bases de datos genómicas existentes.
Entonces, él y el experto independiente en supercomputación Jeff Taylor examinaron datos genómicos basados en la nube que habían sido depositados en una base de datos de secuencias global y cargados por los Institutos Nacionales de Salud de EE. UU. A partir de ahora, la base de datos contiene 16 petabytes de secuencias archivadas, que provienen de encuestas genéticas de todo, desde peces fugu hasta suelos de granja y el interior de las entrañas humanas. (Una base de datos con una foto digital de cada persona en los Estados Unidos ocuparía aproximadamente la misma cantidad de espacio). Los genomas de los virus que infectan a diferentes organismos en estas muestras también se capturan mediante secuenciación, pero por lo general pasan desapercibidos.
Para filtrar los montones de datos, Babaian y Taylor idearon un conjunto de herramientas informáticas especializadas para buscar datos basados en la nube. Con la ayuda de varios bioinformáticos, algunos de los cuales se convirtieron en colaboradores dedicados, modificaron su software para hacer su análisis «mucho más rápido de lo que nadie creía posible», recuerda Babaian, que ahora está en la Universidad de Cambridge.
Pronto ampliaron su búsqueda viral más allá de los coronavirus y observaron todos los datos en la nube. Babaian y sus colegas realizaron su búsqueda buscando coincidencias con el núcleo central del gen de la polimerasa de ARN dependiente de ARN, que es clave para la replicación de todos los virus de ARN. Dichos virus incluyen no solo los coronavirus, sino también los que causan la gripe, la poliomielitis, el sarampión y la hepatitis.
El enfoque de Babaian fue lo suficientemente rápido como para trabajar con 1 millón de conjuntos de datos por día, a un costo informático de menos de 1 centavo por conjunto de datos. “Es una hazaña de ingeniería impresionante”, dice C. Titus Brown, bioinformático de la Universidad de California, Davis, que no participó en el estudio. Cuando los investigadores finalmente terminaron, habían descubierto los genomas parciales de casi 132.000 virus de ARN, informan hoy en Naturaleza.
La nueva base de datos del grupo no tiene la secuencia completa de cada nuevo virus; en muchos casos, solo existe el gen de la enzima central. Pero los investigadores pueden usar incluso secuencias parciales para construir árboles genealógicos que revelen cómo se relacionan los diferentes virus y cómo evolucionan. También pueden usar la base de datos para averiguar dónde se encontró un virus en particular y cuál es su anfitrión. Y algunos descubrimientos podrían ayudar a los investigadores a comprender mejor cómo surgen los patógenos humanos, dice Brown, o mejorar las pruebas de diagnóstico de infecciones virales. Finalmente, cuando se aísla un nuevo virus de un paciente enfermo, los investigadores pueden saber más fácilmente si ya se ha encontrado en otro lugar. “Hemos convertido esto [database] en una red gigante de vigilancia de virus”, dice Babaian.
Algunos hallazgos fueron inesperados, incluidos coronavirus previamente desconocidos en los bien estudiados peces fugu y ajolotes. En algunos casos, los investigadores pudieron reconstruir genomas virales completos. Y en algunos animales acuáticos, las secuencias sugirieron que el nuevo genoma del coronavirus tiene dos bucles separados, no la cadena única de ARN habitual, informan Babaian y sus colegas.
El equipo de Babaian también encontró evidencia de más de 250 virus gigantes que infectan bacterias y son similares a los que se encuentran en las algas. Se detectaron miembros del grupo viral de los bacteriófagos, parientes cercanos de estos «enormes fagos», en secuencias de organismos muy diferentes. Se encontró un grupo de fagos enormes en una persona en Bangladesh y también en gatos y perros en el Reino Unido, por ejemplo. Estos virus son lo suficientemente grandes como para transportar genes entre sus especies anfitrionas, señala Babaian. Así es con los virus, dice Daszak. “Cada vez que comenzamos a excavar, nos encontramos con sorpresas”.
Para asegurarse de que otros puedan aprovechar el trabajo, el equipo de Babaian ha creado un repositorio público de las herramientas que desarrolló, junto con los resultados. La cantidad de secuencias de ADN disponibles públicamente y basadas en la nube se está expandiendo exponencialmente; si hiciera el mismo análisis el próximo año, Babaian dice que esperaría encontrar cientos de miles de virus de ARN más. “Para el final de la década, quiero identificar más de 100 millones”.