Investigadores del Instituto Nacional de Estándares y Tecnología (NIST) han desarrollado una nueva herramienta estadística que han utilizado para predecir la función de las proteínas. No solo podría ayudar con el difícil trabajo de alterar las proteínas de formas útiles en la práctica, sino que también funciona mediante métodos que son completamente interpretables, una ventaja sobre la inteligencia artificial (IA) convencional que ha ayudado con la ingeniería de proteínas en el pasado.
La nueva herramienta, llamada LANTERN, podría resultar útil en trabajos que van desde la producción de biocombustibles hasta la mejora de cultivos y el desarrollo de nuevos tratamientos para enfermedades. Las proteínas, como componentes básicos de la biología, son un elemento clave en todas estas tareas. Pero si bien es comparativamente fácil realizar cambios en la cadena de ADN que sirve como modelo para una proteína determinada, sigue siendo un desafío determinar qué pares de bases específicos (peldaños en la escalera del ADN) son las claves para producir el efecto deseado. . Encontrar estas claves ha sido competencia de la IA construida a partir de redes neuronales profundas (DNN), que, aunque son efectivas, son notoriamente opacas para la comprensión humana.
Descrito en un nuevo artículo publicado en el Procedimientos de la Academia Nacional de Ciencias, LANTERN muestra la capacidad de predecir las ediciones genéticas necesarias para crear diferencias útiles en tres proteínas diferentes. Una es la proteína en forma de espiga de la superficie del virus SARS-CoV-2 que causa la COVID-19; comprender cómo los cambios en el ADN pueden alterar esta proteína de pico podría ayudar a los epidemiólogos a predecir el futuro de la pandemia. Los otros dos son caballos de batalla de laboratorio bien conocidos: la proteína LacI de la bacteria E. coli y la proteína fluorescente verde (GFP) utilizada como marcador en experimentos de biología. La selección de estos tres temas permitió al equipo del NIST mostrar no solo que su herramienta funciona, sino también que sus resultados son interpretables, una característica importante para la industria, que necesita métodos predictivos que ayuden a comprender el sistema subyacente.
«Tenemos un enfoque que es completamente interpretable y que tampoco tiene pérdida de poder predictivo», dijo Peter Tonner, estadístico y biólogo computacional del NIST y principal desarrollador de LANTERN. «Existe la suposición generalizada de que si quieres una de esas cosas, no puedes tener la otra. Hemos demostrado que, a veces, puedes tener ambas».
El problema que está abordando el equipo del NIST podría imaginarse como una interacción con una máquina compleja que luce un vasto panel de control lleno de miles de interruptores sin etiquetar: el dispositivo es un gen, una hebra de ADN que codifica una proteína; los interruptores son pares de bases en la hebra. Todos los interruptores afectan la salida del dispositivo de alguna manera. Si su trabajo es hacer que la máquina funcione de manera diferente de una manera específica, ¿qué interruptores debe activar?
Debido a que la respuesta puede requerir cambios en varios pares de bases, los científicos tienen que cambiar alguna combinación de ellos, medir el resultado, luego elegir una nueva combinación y medir nuevamente. El número de permutaciones es desalentador.
«El número de combinaciones potenciales puede ser mayor que el número de átomos en el universo», dijo Tonner. «Nunca podrías medir todas las posibilidades. Es un número ridículamente grande».
Debido a la gran cantidad de datos involucrados, a las DNN se les ha encomendado la tarea de clasificar una muestra de datos y predecir qué pares de bases deben invertirse. En esto, han tenido éxito, siempre y cuando no pidas una explicación de cómo obtienen sus respuestas. A menudo se los describe como «cajas negras» porque su funcionamiento interno es inescrutable.
«Es realmente difícil entender cómo las DNN hacen sus predicciones», dijo el físico del NIST David Ross, uno de los coautores del artículo. «Y ese es un gran problema si quieres usar esas predicciones para diseñar algo nuevo».
LANTERN, por otro lado, está diseñado explícitamente para ser comprensible. Parte de su explicabilidad se deriva de su uso de parámetros interpretables para representar los datos que analiza. En lugar de permitir que la cantidad de estos parámetros crezca extraordinariamente y, a menudo, sea inescrutable, como es el caso de los DNN, cada parámetro en los cálculos de LANTERN tiene un propósito que pretende ser intuitivo, ayudando a los usuarios a comprender qué significan estos parámetros y cómo influyen en los cálculos de LANTERN. predicciones
El modelo LINTERNA representa mutaciones de proteínas utilizando vectores, herramientas matemáticas ampliamente utilizadas que a menudo se representan visualmente como flechas. Cada flecha tiene dos propiedades: su dirección implica el efecto de la mutación, mientras que su longitud representa qué tan fuerte es ese efecto. Cuando dos proteínas tienen vectores que apuntan en la misma dirección, LINTERNA indica que las proteínas tienen una función similar.
Las direcciones de estos vectores a menudo se asignan a mecanismos biológicos. Por ejemplo, LANTERN aprendió una dirección asociada con el plegamiento de proteínas en los tres conjuntos de datos que estudió el equipo. (El plegamiento juega un papel fundamental en el funcionamiento de una proteína, por lo que identificar este factor en los conjuntos de datos fue una indicación de que el modelo funciona según lo previsto). Al hacer predicciones, LANTERN simplemente agrega estos vectores, un método que los usuarios pueden rastrear al examinar su predicciones
Otros laboratorios ya habían usado las DNN para hacer predicciones sobre qué cambios de interruptor harían cambios útiles en las tres proteínas en cuestión, por lo que el equipo del NIST decidió enfrentar a LANTERN con los resultados de las DNN. El nuevo enfoque no era simplemente lo suficientemente bueno; según el equipo, logra un nuevo estado del arte en precisión predictiva para este tipo de problemas.
«LANTERN igualó o superó a casi todos los enfoques alternativos con respecto a la precisión de la predicción», dijo Tonner. «Supera a todos los demás enfoques en la predicción de cambios en LacI, y tiene una precisión predictiva comparable para GFP para todos excepto uno. Para el SARS-CoV-2, tiene una precisión predictiva más alta que todas las alternativas que no sean un tipo de DNN, que coincidió con la de LANTERN precisión, pero no lo superó».
LANTERN determina qué conjuntos de interruptores tienen el mayor efecto sobre un atributo dado de la proteína, por ejemplo, su estabilidad de plegamiento, y resume cómo el usuario puede modificar ese atributo para lograr el efecto deseado. En cierto modo, LANTERN transmuta los muchos interruptores del panel de nuestra máquina en unos pocos diales simples.
«Reduce miles de interruptores a quizás cinco pequeños diales que puede girar», dijo Ross. «Te dice que el primer dial tendrá un gran efecto, el segundo tendrá un efecto diferente pero más pequeño, el tercero aún más pequeño, y así sucesivamente. Entonces, como ingeniero, me dice que puedo concentrarme en el primer y segundo dial para obtener el resultado que necesito. LANTERN me explica todo esto y es increíblemente útil».
Rajmonda Caceres, científica del Laboratorio Lincoln del MIT que está familiarizada con el método detrás de LANTERN, dijo que valora la interpretabilidad de la herramienta.
«No hay muchos métodos de IA aplicados a aplicaciones de biología donde se diseñen explícitamente para la interpretabilidad», dijo Cáceres, que no está afiliado al estudio del NIST. «Cuando los biólogos ven los resultados, pueden ver qué mutación está contribuyendo al cambio en la proteína. Este nivel de interpretación permite una investigación más interdisciplinaria, porque los biólogos pueden comprender cómo está aprendiendo el algoritmo y pueden generar más información sobre el sistema biológico». en estudio».
Tonner dijo que si bien está satisfecho con los resultados, LANTERN no es una panacea para el problema de explicabilidad de la IA. Explorar alternativas a las DNN más ampliamente beneficiaría todo el esfuerzo por crear una IA confiable y explicable, dijo.
«En el contexto de la predicción de los efectos genéticos sobre la función de las proteínas, LANTERN es el primer ejemplo de algo que rivaliza con las DNN en poder predictivo sin dejar de ser completamente interpretable», dijo Tonner. «Proporciona una solución específica a un problema específico. Esperamos que pueda aplicarse a otros, y que este trabajo inspire el desarrollo de nuevos enfoques interpretables. No queremos que la IA predictiva siga siendo una caja negra».