Mientras los funcionarios de salud pública de todo el mundo se enfrentan al último aumento de la pandemia de COVID-19, los investigadores de la Universidad de Drexel han creado un modelo informático que podría ayudarlos a estar mejor preparados para la próxima. Usando algoritmos de aprendizaje automático, entrenados para identificar correlaciones entre cambios en la secuencia genética del virus COVID-19 y aumentos en la transmisión, hospitalizaciones y muertes, el modelo puede proporcionar una alerta temprana sobre la gravedad de las nuevas variantes.
Más de dos años después de la pandemia, los científicos y los funcionarios de salud pública están haciendo todo lo posible para predecir cómo es probable que las mutaciones del virus SARS-CoV-2 lo hagan más transmisible, evasivo para el sistema inmunitario y probable que cause infecciones graves. Pero recopilar y analizar los datos genéticos para identificar nuevas variantes, y vincularlos con los pacientes específicos que se han enfermado, sigue siendo un proceso arduo.
Debido a esto, la mayoría de las proyecciones de salud pública sobre nuevas «variantes de preocupación», como las clasifica la Organización Mundial de la Salud, se basan en pruebas de vigilancia y observación de las regiones donde ya se están propagando.
«La velocidad con la que nuevas variantes, como omicron, se han abierto camino en todo el mundo significa que para cuando los funcionarios de salud pública tengan una buena idea de cuán vulnerable podría ser su población, el virus ya ha llegado», dijo Bahrad A. Sokhansanj, Ph.D., profesor asistente de investigación en la Facultad de Ingeniería de Drexel que dirigió el desarrollo del modelo informático. «Estamos tratando de brindarles un sistema de alerta temprana, como modelos meteorológicos avanzados para meteorólogos, para que puedan predecir rápidamente qué tan peligrosa es una nueva variante y prepararse en consecuencia».
El modelo Drexel, que se publicó recientemente en la revista Informática en Biología y Medicinaestá impulsado por un análisis específico de la secuencia genética de la proteína espiga del virus, la parte del virus que le permite evadir el sistema inmunitario e infectar células sanas, también es la parte que se sabe que ha mutado con mayor frecuencia durante la pandemia. combinado con un análisis de aprendizaje automático de efectos mixtos de factores como la edad, el sexo y la ubicación geográfica de los pacientes con COVID.
Aprendiendo a encontrar patrones
El equipo de investigación utilizó un algoritmo de aprendizaje automático recientemente desarrollado, llamado GPBoost, basado en métodos comúnmente utilizados por grandes empresas para analizar datos de ventas. A través de un análisis textual, el programa puede ubicarse rápidamente en las áreas de la secuencia genética que tienen más probabilidades de estar vinculadas a los cambios en la gravedad de la variante.
Superpone estos patrones con los que obtiene de una lectura separada de los metadatos del paciente (edad y sexo) y los resultados médicos (casos leves, hospitalizaciones, muertes). El algoritmo también tiene en cuenta e intenta eliminar los sesgos debido a la forma en que los diferentes países recopilan datos. Este proceso de entrenamiento no solo permite que el programa valide las predicciones que ya ha hecho sobre la variante existente, sino que también prepara el modelo para hacer proyecciones cuando se encuentra con nuevas mutaciones en la proteína espiga. Muestra estas proyecciones como un rango de gravedad, desde casos leves hasta hospitalizaciones y muertes, según la edad o el sexo de un paciente.
«Cuando obtenemos una secuencia, podemos hacer una predicción sobre el riesgo de enfermedad grave de una variante antes de que los laboratorios realicen experimentos con modelos animales o cultivos celulares, o antes de que suficientes personas se enfermen como para recopilar datos epidemiológicos. En otras palabras, nuestro modelo es más como un sistema de alerta temprana para variantes emergentes», dijo Sokhansanj.
Se utilizaron datos genéticos y de pacientes de la base de datos GISAID, el mayor compendio de información sobre personas que han sido infectadas con el coronavirus, para entrenar el algoritmo. Una vez que se prepararon los algoritmos, el equipo los usó para hacer proyecciones sobre las subvariantes de omicron posteriores a BA.1 y BA.2.
«Demostramos que es más probable que las futuras subvariantes de omicron causen una enfermedad más grave», dijo Sokhansanj. «Por supuesto, en el mundo real, esa mayor gravedad de la enfermedad se verá mitigada por una infección previa con las variantes de omicron anteriores; este factor también se refleja en el modelo».
Mantenerse al día con COVID
El enfoque específico de Drexel para el modelado predictivo de COVID-19 es un desarrollo crucial porque la gran cantidad de datos de secuenciación genética que se recopilan ha puesto a prueba los métodos de análisis estándar para extraer información útil lo suficientemente rápido como para mantenerse al día con las nuevas mutaciones del virus.
«La cantidad de mutaciones de la proteína espiga ya ha sido bastante considerable y es probable que continúe porque el virus se encuentra con huéspedes que nunca antes habían sido infectados», dijo Gail Rosen, Ph.D., profesora de la Facultad de Ingeniería, que dirige Laboratorio de Informática y Procesado de Señales Ecológico y Evolutivo de Drexel.
«Algunas estimaciones sugieren que el SARS-CoV-2 solo ha ‘explorado’ tan solo un 30-40% del espacio potencial para las mutaciones de pico», dijo. «Cuando considera que cada mutación podría afectar las propiedades clave del virus, como la virulencia y la evasión inmune, parece vital poder identificar rápidamente estas variaciones y comprender lo que significan para aquellos que son vulnerables a la infección».
El laboratorio de Rosen ha estado a la vanguardia del uso de algoritmos para eliminar el ruido de los datos de secuenciación genética e identificar patrones que probablemente sean significativos. Al principio de la pandemia, el grupo pudo rastrear la evolución geográfica de las nuevas variantes del SARS-CoV-2 mediante el desarrollo de un método para identificar y etiquetar rápidamente sus mutaciones. Su equipo ha seguido aprovechando este proceso para comprender mejor los patrones de la pandemia.
Visión entre variables
Hasta ahora, los científicos han utilizado predominantemente la secuenciación genética para identificar mejor las mutaciones junto con los experimentos de laboratorio y los estudios epidemiológicos. Ha habido poco éxito en vincular variaciones de secuencias genéticas específicas con la viralidad de nuevas variantes. Los investigadores de Drexel creen que esto se debe a los cambios progresivos en la vacunación y la inmunidad a lo largo del tiempo, así como a las variaciones en la forma en que se informan los datos en diferentes países.
«Sabemos que cada variante sucesiva de COVID-19 hasta ahora ha resultado en infecciones ligeramente más leves debido a los aumentos en la vacunación, la inmunidad y los proveedores de atención médica que tienen una mejor comprensión de cómo tratar las infecciones. Pero lo que hemos descubierto a través de nuestro análisis de efectos mixtos es que esta tendencia no se cumple necesariamente para cada país. Es por eso que nuestro modelo considera la ubicación geográfica como una de las variables tomadas en consideración por el algoritmo de aprendizaje automático «, dijo Sokhansanj.
Si bien las disparidades e inconsistencias en los datos de pacientes y de salud pública han sido un desafío para los funcionarios de salud pública durante la pandemia, el modelo Drexel puede dar cuenta de esto y explicar cómo afectó las proyecciones del algoritmo.
«Uno de nuestros objetivos clave era asegurarnos de que el modelo sea explicable, es decir, podemos decir por qué está haciendo las predicciones que está haciendo», dijo Sokhansanj. «Usted realmente quiere un modelo que le permita mirar debajo del capó para ver, por ejemplo, las razones por las que sus predicciones pueden o no estar de acuerdo con lo que los biólogos entienden de los experimentos de laboratorio, para garantizar que las predicciones se basen en la estructura correcta».
una mejor vista
El equipo señala que avances como este subrayan la necesidad de proporcionar más recursos de salud pública a las áreas vulnerables del mundo, no solo para el tratamiento y la vacunación, sino también para recopilar datos de salud pública, incluida la secuenciación de variantes emergentes.
Actualmente, los investigadores están utilizando el modelo para analizar con más rigor el grupo actual de variantes emergentes que se volverán dominantes después de omicron BA.4 y BA.5.
“El virus puede y seguirá sorprendiéndonos”, dijo Sokhansanj. «Necesitamos expandir urgentemente nuestra capacidad global para secuenciar variantes, de modo que podamos analizar las secuencias de variantes potencialmente peligrosas tan pronto como aparezcan, antes de que se conviertan en un problema mundial».
Diferenciación genética y diversidad de la variante Omicron del SARS-CoV-2 en su brote temprano
Bahrad A. Sokhansanj et al, Predicción de la gravedad de la enfermedad COVID-19 a partir de la secuencia de la proteína del pico del SARS-CoV-2 mediante el aprendizaje automático de efectos mixtos, Informática en Biología y Medicina (2022). DOI: 10.1016/j.compbiomed.2022.105969
Citación: Radar COVID: la secuenciación genética puede ayudar a predecir la gravedad de la próxima variante (2022, 1 de septiembre) recuperado el 2 de septiembre de 2022 de https://medicalxpress.com/news/2022-09-covid-radar-genetic-sequencing-severity.html
Este documento está sujeto a derechos de autor. Aparte de cualquier trato justo con fines de estudio o investigación privados, ninguna parte puede reproducirse sin el permiso por escrito. El contenido se proporciona únicamente con fines informativos.