El universo relativamente pequeño de genes humanos podría crecer hasta en un tercio, si tiene éxito un esfuerzo concertado para buscar nuevos genes que codifiquen proteínas cortas. Ya se ha demostrado que muchas miniproteínas conocidas desempeñan funciones clave en el metabolismo celular y las enfermedades, por lo que el esfuerzo internacional para catalogar las nuevas y determinar sus funciones, anunciado la semana pasada en Naturaleza Biotecnologíapodría arrojar luz sobre una amplia gama de procesos bioquímicos y proporcionar objetivos para nuevos medicamentos.
“El microproteoma es una mina de oro potencial de biología inexplorada”, dice Eric Olson, biólogo molecular del Centro Médico Southwestern de la Universidad de Texas que no participa en el nuevo consorcio. Anne O’Donnell-Luria, experta en genética de enfermedades raras en el Boston Children’s Hospital, agrega que el catálogo ampliado podría ser una rica fuente de pistas sobre vínculos genéticos con enfermedades. “Todos podrán usar este conjunto de datos para progresar en su área”.
Solo se conocen 19.370 genes humanos que codifican proteínas. Pero los catálogos actuales solo incluyen genes para proteínas que contienen al menos 100 aminoácidos cada una, un límite elegido en parte porque las secuencias de ADN más largas facilitan a los genetistas buscar puntos en común entre las especies. Se sabe que existen muchas proteínas más pequeñas, pero en gran medida han pasado desapercibidas a pesar de que se ha demostrado que algunas desempeñan un papel crucial en la regulación del sistema inmunitario, el bloqueo de otras proteínas y la destrucción de los ARN defectuosos. “El hecho de que estos hayan sido excluidos representa un gran vacío en la genética y la biología del desarrollo”, dice el miembro del consorcio John Prensner, oncólogo pediátrico en el Boston Children’s.
Cuando los genes se traducen en proteínas, primero se transcriben en fragmentos de ARN mensajero (ARNm). Los orgánulos celulares llamados ribosomas luego leen esas secuencias de ARNm y siguen sus instrucciones para unir los aminoácidos en proteínas. Cuando los científicos escanean en busca de genes, generalmente buscan secuencias de ADN distintivas flanqueadas por señales de inicio y fin para el proceso de ensamblaje de proteínas, los llamados marcos de lectura abiertos (ORF).
En los últimos años, los investigadores han ideado otras formas de identificar secuencias de codificación de proteínas. Uno llamado Ribo-seq utiliza tecnología de secuenciación de alto rendimiento para catalogar todos los ARN en una muestra que están unidos a un ribosoma en un momento dado. Esas secuencias de ARN apuntan a genes probables, aunque la técnica no puede probar que ninguna secuencia produzca una proteína estable y funcional. Las bases de datos de Ribo-seq ahora contienen miles de ORF, muchos de los cuales no codifican proteínas conocidas y, por lo tanto, pueden representar otras nuevas.
En la primera fase del consorcio, los miembros escanearon siete bases de datos de Ribo-seq en busca de ORF candidatos que pudieran corresponder con proteínas pequeñas. Después de eliminar las entradas redundantes, obtuvieron 7264 candidatos. A continuación, el grupo intentará identificar cuáles de ellas producen proteínas con funciones celulares reales. Técnicas como la espectrometría de masas pueden ayudar a determinar si determinados ARN se traducen en proteínas estables. Otros, como el etiquetado de epítopos, usan anticuerpos para rastrear proteínas marcadas, revelando su ubicación y abundancia en las células y brindando pistas sobre su función.
Por ahora, los 35 investigadores involucrados están financiando el esfuerzo con los presupuestos de sus propios laboratorios y no tienen planes inmediatos para buscar financiamiento específico. “Hay tanto allí, esto solo debe hacerse”, dice el miembro del consorcio Sebastiaan van Heesch, biólogo de sistemas en el Centro Princesa Máxima de Oncología Pediátrica en los Países Bajos.