Los modelos de lenguajes grandes (LLM) han transformado la forma en que muchos de nosotros trabajamos, desde respaldar la creación y codificación de contenido hasta mejorar los motores de búsqueda. Sin embargo, la falta de transparencia, reproducibilidad y personalización de los LLM sigue siendo un desafío que restringe su uso generalizado en la investigación biomédica.
Para los investigadores biomédicos, optimizar los LLM para una pregunta de investigación específica puede resultar abrumador, porque requiere habilidades de programación y experiencia en aprendizaje automático. Estas barreras han reducido la adopción de LLM para muchas tareas de investigación, incluida la extracción y el análisis de datos.
A publicación en Naturaleza Biotecnología presenta BioChatter para ayudar a superar estas limitaciones. BioChatter es un marco Python de código abierto para implementar LLM en investigación biomédica, en línea con los principios de la ciencia abierta.
Para abordar las preocupaciones de privacidad y reproducibilidad que a menudo se asocian con los LLM comerciales, BioChatter ofrece un marco para los investigadores que buscan transparencia y flexibilidad en sus flujos de trabajo de LLM.
«Los grandes modelos de lenguaje tienen un inmenso potencial para transformar la investigación biomédica al hacer que los datos complejos y las tareas de análisis sean más accesibles», afirmó Julio Sáez-Rodríguez, jefe de investigación del Instituto Europeo de Bioinformática del EMBL (EMBL-EBI) y profesor en excedencia en la Universidad de Heidelberg.
«Sin embargo, para aprovechar al máximo esta tecnología para la investigación biomédica, necesitamos herramientas que prioricen la transparencia y la reproducibilidad. BioChatter cierra esta brecha, permitiendo a los investigadores integrar capacidades de LLM en muchas tareas de investigación biomédica».
Interfaz con gráficos y software de conocimiento biomédico
BioChatter se puede adaptar a áreas de investigación específicas para extraer datos de bases de datos y literatura biomédica. Además, indicar a los LLM que utilicen software externo a través de la funcionalidad de llamada API de BioChatter permite el acceso en tiempo real a información actualizada y la integración con herramientas bioinformáticas.
Una característica clave de BioChatter es su capacidad para integrarse con biocifrado-Gráficos de conocimiento creados: redes que vinculan datos biomédicos como mutaciones genéticas, asociaciones entre medicamentos y enfermedades y otra información clínica. Estos gráficos ayudan a los investigadores a analizar conjuntos de datos complejos para ayudar a identificar variaciones genéticas en enfermedades o comprender los mecanismos de los fármacos.
«BioChatter está diseñado para reducir las barreras para los investigadores biomédicos que utilizan modelos de lenguaje grandes, proporcionando un marco abierto y transparente que puede adaptarse a diferentes necesidades de investigación», afirmó Sebastian Lobentanzer, investigador postdoctoral en el Hospital Universitario de Heidelberg e investigador principal entrante en Helmholtz Munich. .
«Nuestro objetivo es ayudar a los científicos a centrarse en su investigación dejando las complejidades técnicas a la plataforma».
Aplicaciones del mundo real
El siguiente paso de BioChatter es probar su integración en bases de datos de ciencias biológicas. El equipo detrás de BioChatter está trabajando en estrecha colaboración con Open Targets, una asociación público-privada que incluye EMBL-EBI y utiliza datos de genética y genómica humana para la identificación y priorización sistemática de objetivos farmacológicos.
Integración de BioChatter en el Plataforma de objetivos abiertos podría ayudar a optimizar la forma en que los usuarios acceden y utilizan los datos biomédicos de la plataforma.
El equipo también está desarrollando BioGather, un sistema complementario diseñado para extraer información de otros tipos de datos clínicos, incluidos genómicos, notas médicas e imágenes.
Al ayudar a analizar y alinear estos tipos de datos, BioGather ayudará a los investigadores a abordar problemas complejos en medicina personalizada, modelado de enfermedades y desarrollo de fármacos.
Más información:
Una plataforma para la aplicación biomédica de grandes modelos de lenguaje, Naturaleza Biotecnología (2025). DOI: 10.1038/s41587-024-02534-3. www.nature.com/articles/s41587-024-02534-3
Citación: BioChatter: Making Large Language Models Accessible for Biomedical Research (2025, 22 de enero) recuperado el 22 de enero de 2025 de https://medicalxpress.com/news/2025-01-biochatter-large-language-accessible-biomedical.html
Este documento está sujeto a derechos de autor. Aparte de cualquier trato justo con fines de estudio o investigación privados, ninguna parte puede reproducirse sin el permiso por escrito. El contenido se proporciona únicamente con fines informativos.