En el viaje del gen a la proteína, una molécula de ARN naciente se puede cortar y unir, o empalmar, de diferentes maneras antes de traducirse en una proteína. Este proceso, conocido como empalme alternativo, permite que un solo gen codifique varias proteínas diferentes. El empalme alternativo ocurre en muchos procesos biológicos, como cuando las células madre maduran en células específicas de tejido. Sin embargo, en el contexto de la enfermedad, el empalme alternativo puede estar desregulado. Por lo tanto, es importante examinar el transcriptoma, es decir, todas las moléculas de ARN que podrían provenir de los genes, para comprender la causa raíz de una afección.
Sin embargo, históricamente ha sido difícil «leer» las moléculas de ARN en su totalidad porque suelen tener miles de bases de largo. En cambio, los investigadores se han basado en la llamada secuenciación de ARN de lectura corta, que rompe las moléculas de ARN y las secuencia en piezas mucho más cortas, entre 200 y 600 bases, según la plataforma y el protocolo. Luego se utilizan programas de computadora para reconstruir las secuencias completas de las moléculas de ARN. La secuenciación de ARN de lectura corta puede proporcionar datos de secuenciación muy precisos, con una baja tasa de error por base de aproximadamente el 0,1 % (lo que significa que se determina incorrectamente una base por cada 1000 bases secuenciadas). Sin embargo, está limitado en la información que puede proporcionar debido a la corta duración de las lecturas de secuenciación. En muchos sentidos, la secuenciación de ARN de lectura corta es como dividir una imagen grande en muchas piezas de un rompecabezas que tienen la misma forma y tamaño y luego tratar de volver a armar la imagen.
Recientemente, se han puesto a disposición plataformas de «lectura larga» que pueden secuenciar moléculas de ARN de más de 10.000 bases de longitud de extremo a extremo. Estas plataformas no requieren que las moléculas de ARN se rompan antes de secuenciarlas, pero tienen una tasa de error por base mucho más alta, típicamente entre 5% y 20%. Esta conocida limitación ha obstaculizado gravemente la adopción generalizada de la secuenciación de ARN de lectura larga. En particular, la alta tasa de error ha dificultado la determinación de la validez de nuevas moléculas de ARN previamente desconocidas descubiertas en una condición o enfermedad particular.
Para evitar este problema, los investigadores del Children’s Hospital of Philadelphia (CHOP) han desarrollado una nueva herramienta computacional que puede descubrir y cuantificar con mayor precisión las moléculas de ARN a partir de estos datos de secuenciación de ARN de lectura larga propensos a errores. La herramienta, llamada ESPRESSO (Estadísticas de errores PRomoted Evaluator of Splice Site Options), se informó hoy en Avances de la ciencia.
«La secuenciación de ARN de lectura larga es una tecnología poderosa que nos permitirá descubrir la variación del ARN en enfermedades genéticas raras y otras afecciones, como el cáncer», dijo Yi Xing, PhD, director del Centro de Medicina Computacional y Genómica de CHOP y autor principal. de El estudio. «Probablemente nos encontramos en un punto de inflexión en la forma en que descubrimos y analizamos las moléculas de ARN. La transición de la secuenciación de ARN de lectura corta a la de lectura larga representa una transformación tecnológica emocionante, y se necesitan con urgencia herramientas computacionales que interpreten de manera confiable los datos de secuenciación de ARN de lectura larga». .»
ESPRESSO puede descubrir y cuantificar con precisión diferentes moléculas de ARN del mismo gen, conocidas como isoformas de ARN, utilizando solo datos de secuenciación de ARN de lectura larga propensos a errores. Para hacerlo, la herramienta computacional compara todas las lecturas largas de secuenciación de ARN de un gen dado con su ADN genómico correspondiente, y luego usa los patrones de error de lecturas largas individuales para identificar con confianza las uniones de empalme, lugares donde la molécula de ARN naciente ha sido cortada y unidos, así como sus correspondientes isoformas de ARN de longitud completa. Al encontrar áreas de coincidencias perfectas entre lecturas de secuenciación de ARN largo y ADN genómico, así como al tomar prestada información de todas las lecturas de secuenciación de ARN largo de un gen, la herramienta puede identificar uniones de empalme e isoformas de ARN altamente confiables, incluidas aquellas que no han sido previamente documentado en las bases de datos existentes.
Los investigadores evaluaron el rendimiento de ESPRESSO utilizando datos simulados y datos de muestras biológicas reales. Descubrieron que ESPRESSO funciona mejor que varias herramientas disponibles actualmente, tanto en términos de descubrimiento de isoformas de ARN como de cuantificación de las mismas. Los investigadores también generaron y analizaron más de mil millones de lecturas de secuenciación de ARN largas que cubren 30 tipos de tejidos humanos y tres líneas de células humanas, lo que proporciona un recurso útil para estudiar la variación del transcriptoma humano en la resolución de isoformas de ARN de longitud completa.
«ESPRESSO aborda un problema de larga data de la secuenciación de ARN de lectura larga y podría marcar el comienzo de nuevas oportunidades de descubrimiento», dijo el Dr. Xing. «Prevemos que ESPRESSO será una herramienta útil para que los investigadores exploren el repertorio de ARN de las células en diversos entornos biomédicos y clínicos».
Este trabajo fue apoyado en parte por la Red Traslacional de Inmuno-Oncología (IOTN) de la Iniciativa Moonshot del Cáncer del Instituto Nacional del Cáncer (U01CA233074), otros Institutos Nacionales de Salud financiados (R01GM088342, R01GM121827 y R56HG012310), junto con un Instituto Nacional de Salud Beca de Formación T32 en Genómica Computacional (T32HG000046).