Las interfaces cerebro-computadora son una tecnología innovadora que puede ayudar a las personas paralizadas a recuperar funciones que han perdido, como mover una mano. Estos dispositivos registran las señales del cerebro y descifran la acción que el usuario pretende realizar, evitando los nervios dañados o degradados que normalmente transmitirían esas señales cerebrales para controlar los músculos.
Desde 2006Las demostraciones de interfaces cerebro-computadora en humanos se han centrado principalmente en restaurar los movimientos de brazos y manos al permitir que las personas Controlar los cursores de la computadora o brazos robóticosRecientemente, los investigadores han comenzado a desarrollar Interfaces cerebro-computadora de voz Para restablecer la comunicación de las personas que no pueden hablar.
A medida que el usuario intenta hablar, estas interfaces cerebro-computadora registran las señales cerebrales únicas de la persona asociadas con los movimientos musculares que intenta realizar para hablar y luego las traducen en palabras. Estas palabras pueden luego mostrarse como texto en una pantalla o pueden pronunciarse en voz alta mediante un software de conversión de texto a voz.
Soy un investigador en el Laboratorio de neuroprótesis en la Universidad de California, Davis, que forma parte de la Puerta cerebral 2 ensayo clínico.
Mis colegas y yo demostramos recientemente una interfaz cerebro-computadora de voz que descifra el intento de habla de un hombre con ELA, o esclerosis lateral amiotrófica, también conocida como enfermedad de Lou Gehrig. La interfaz convierte las señales neuronales en texto con una precisión superior al 97 %. La clave de nuestro sistema es un conjunto de modelos de lenguaje de inteligencia artificial: redes neuronales artificiales que ayudan a interpretar los naturales.
Registrando señales cerebrales
El primer paso en nuestra interfaz cerebro-ordenador de voz es el registro de las señales cerebrales. Existen varias fuentes de señales cerebrales, algunas de las cuales requieren cirugía para su registro. Los dispositivos de registro implantados quirúrgicamente pueden capturar señales cerebrales de alta calidad porque se colocan más cerca de las neuronas, lo que da como resultado señales más fuertes con menos interferencias. Estos dispositivos de registro neuronal incluyen rejillas de electrodos colocados en la superficie del cerebro o electrodos implantados directamente en el tejido cerebral.
En nuestro estudio, utilizamos conjuntos de electrodos colocados quirúrgicamente en la corteza motora del habla, la parte del cerebro que controla los músculos relacionados con el habla, del participante Casey Harrell. Registramos la actividad neuronal de 256 electrodos mientras Harrell intentaba hablar.
Descifrando señales cerebrales
El siguiente desafío es relacionar las complejas señales cerebrales con las palabras que el usuario está tratando de decir.
Un método consiste en mapear los patrones de actividad neuronal directamente a las palabras habladas. Este método requiere registrar las señales cerebrales correspondientes a cada palabra varias veces para identificar la relación promedio entre la actividad neuronal y palabras específicas.
Si bien esta estrategia funciona bien para vocabularios pequeños, como se demuestra en un Estudio 2021 con un vocabulario de 50 palabrasresulta poco práctico para los más grandes. Imagine pedirle al usuario de la interfaz cerebro-computadora que intente decir todas las palabras del diccionario varias veces: podría llevar meses y aún así no funcionaría para las palabras nuevas.
En lugar de ello, utilizamos una estrategia alternativa: relacionar las señales cerebrales con los fonemas, las unidades básicas de sonido que forman las palabras. En inglés, hay 39 fonemas, entre ellos ch, er, oo, pl y sh, que se pueden combinar para formar cualquier palabra.
Podemos medir la actividad neuronal asociada a cada fonema varias veces con solo pedirle al participante que lea algunas oraciones en voz alta. Al asignar con precisión la actividad neuronal a los fonemas, podemos combinarlos en cualquier palabra en inglés, incluso aquellas con las que el sistema no haya sido entrenado explícitamente.
Para mapear las señales cerebrales a los fonemas, utilizamos modelos avanzados de aprendizaje automático. Estos modelos son particularmente adecuados para esta tarea debido a su capacidad de encontrar patrones en grandes cantidades de datos complejos que serían imposibles de discernir para los humanos.
Piense en estos modelos como oyentes superinteligentes que pueden distinguir información importante de señales cerebrales ruidosas, de forma similar a cómo usted podría concentrarse en una conversación en una habitación llena de gente. Con estos modelos, pudimos descifrar secuencias de fonemas durante un intento de hablar con más del 90 % de precisión.
De los fonemas a las palabras
Una vez que tenemos las secuencias de fonemas descifradas, necesitamos convertirlas en palabras y oraciones. Esto es un desafío, especialmente si la secuencia de fonemas descifrada no es perfectamente precisa. Para resolver este problema, utilizamos dos tipos complementarios de modelos de lenguaje de aprendizaje automático.
El primero son los modelos de lenguaje de n-gramas, que predicen qué palabra es más probable que siga a un conjunto de «n» palabras. Entrenamos un modelo de lenguaje de 5-gramas, o cinco palabras, en millones de frases Predecir la probabilidad de una palabra basándose en las cuatro palabras anteriores, captando el contexto local y frases comunes. Por ejemplo, después de «soy muy bueno», podría sugerir «hoy» como más probable que «patata».
Utilizando este modelo, convertimos nuestras secuencias de fonemas en las 100 secuencias de palabras más probables, cada una con una probabilidad asociada.
El segundo son los grandes modelos lingüísticos, que impulsan a los chatbots de IA y también predicen qué palabras tienen más probabilidades de seguir a otras. Usamos grandes modelos lingüísticos para refinar nuestras elecciones. Estos modelos, entrenados en grandes cantidades de texto diverso, tienen una comprensión más amplia de la estructura y el significado del lenguaje. Nos ayudan a determinar cuál de nuestras 100 oraciones candidatas tiene más sentido en un contexto más amplio.
Al equilibrar cuidadosamente las probabilidades del modelo de n-gramas, el modelo de lenguaje amplio y nuestras predicciones iniciales de fonemas, podemos hacer una suposición muy bien fundamentada sobre lo que el usuario de la interfaz cerebro-computadora está tratando de decir. Este proceso de varios pasos nos permite manejar las incertidumbres en la decodificación de fonemas y producir oraciones coherentes y contextualmente apropiadas.
Beneficios en el mundo real
En la práctica, esta estrategia de decodificación del habla ha tenido un éxito notable. Hemos permitido que Casey Harrell, un hombre con ELA, «hable» con más del 97 % de precisión utilizando únicamente sus pensamientos. Este avance le permite conversar fácilmente con su familia y amigos por primera vez en años, todo desde la comodidad de su propio hogar.
Las interfaces cerebro-computadora que funcionan con el habla representan un avance significativo en la restauración de la comunicación. A medida que continuamos perfeccionando estos dispositivos, prometen dar voz a quienes han perdido la capacidad de hablar y reconectarlos con sus seres queridos y el mundo que los rodea.
Sin embargo, aún quedan desafíos por resolver, como lograr que la tecnología sea más accesible, portátil y duradera durante años. A pesar de estos obstáculos, las interfaces cerebro-computadora basadas en el habla son un ejemplo poderoso de cómo la ciencia y la tecnología pueden unirse para resolver problemas complejos y mejorar drásticamente la vida de las personas.
Este artículo se vuelve a publicar desde La conversación bajo una licencia Creative Commons. Lea el Artículo original.
Citación:De los pensamientos a las palabras: cómo la IA descifra las señales neuronales para ayudar a un hombre con ELA a hablar (24 de agosto de 2024) recuperado el 24 de agosto de 2024 de https://medicalxpress.com/news/2024-08-thoughts-words-ai-deciphers-neural.html
Este documento está sujeto a derechos de autor. Salvo que se haga un uso legítimo con fines de estudio o investigación privados, no se podrá reproducir ninguna parte del mismo sin autorización por escrito. El contenido se ofrece únicamente con fines informativos.