El Gran Hermano está escuchando. Las empresas utilizan «bossware» para escuchar a sus empleados cuando están cerca de sus computadoras. Múltiples aplicaciones de “spyware” pueden grabar llamadas telefónicas. Y los dispositivos domésticos como Echo de Amazon pueden grabar conversaciones cotidianas. Una nueva tecnología, llamada Neural Voice Camouflage, ahora ofrece una defensa. Genera ruido de audio personalizado de fondo mientras hablas, lo que confunde a la inteligencia artificial (IA) que transcribe nuestras voces grabadas.
El nuevo sistema utiliza un «ataque adversario». La estrategia emplea el aprendizaje automático, en el que los algoritmos encuentran patrones en los datos, para modificar los sonidos de una manera que hace que una IA, pero no las personas, lo confundan con otra cosa. Esencialmente, usas una IA para engañar a otra.
Sin embargo, el proceso no es tan fácil como parece. La IA de aprendizaje automático necesita procesar todo el clip de sonido antes de saber cómo modificarlo, lo que no funciona cuando quieres camuflarlo en tiempo real.
Entonces, en el nuevo estudio, los investigadores enseñaron una red neuronal, un sistema de aprendizaje automático inspirado en el cerebro, para predecir el futuro de manera efectiva. Lo entrenaron en muchas horas de voz grabada para que pueda procesar constantemente clips de audio de 2 segundos y disfrazar lo que probablemente se diga a continuación.
Por ejemplo, si alguien acaba de decir «disfruten de la gran fiesta», no puede predecir exactamente lo que se dirá a continuación. Pero al tener en cuenta lo que se acaba de decir, así como las características de la voz del hablante, produce sonidos que interrumpirán una gama de posibles frases que podrían seguir. Eso incluye lo que realmente sucedió después; aquí, el mismo hablante diciendo, “eso se está cocinando”. Para los oyentes humanos, el camuflaje de audio suena como un ruido de fondo y no tienen problemas para entender las palabras habladas. Pero las máquinas tropiezan.
Los científicos superpusieron la salida de su sistema en voz grabada mientras se alimentaba directamente a uno de los sistemas de reconocimiento automático de voz (ASR) que podrían usar los espías para transcribir. El sistema aumentó la tasa de errores de palabras del software ASR del 11,3 % al 80,2 %. “Casi me muero de hambre, porque conquistar reinos es un trabajo duro”, por ejemplo, se transcribió como “apenas empiezo a romper mi celda por amenaza para esta conquista de reinos como harenar ov the reson” (ver video, arriba).
Las tasas de error para el habla disfrazada por ruido blanco y un ataque adversario competitivo (que, al carecer de capacidades predictivas, enmascaró solo lo que acababa de escuchar con ruido reproducido medio segundo demasiado tarde) fueron solo 12.8% y 20.5%, respectivamente. El trabajo fue presentado en un papel el mes pasado en la Conferencia Internacional sobre Representaciones de Aprendizaje, que revisa las presentaciones de manuscritos.
Incluso cuando el sistema ASR fue entrenado para transcribir el habla perturbada por Neural Voice Camouflage (una técnica que posiblemente podrían emplear los espías), su tasa de error se mantuvo en 52.5%. En general, las palabras más difíciles de interrumpir fueron las cortas, como «el», pero estas son las partes menos reveladoras de una conversación.
Los investigadores también probaron el método en el mundo real, reproduciendo una grabación de voz combinada con el camuflaje a través de un conjunto de altavoces en la misma habitación que un micrófono. Todavía funcionó. Por ejemplo, “A mí también me acaban de comprar un monitor nuevo” se transcribió como “con motivos de que también toscat y neumanitor”.
Este es solo el primer paso para salvaguardar la privacidad frente a la IA, dice Mia Chiquier, científica informática de la Universidad de Columbia que dirigió la investigación. “La inteligencia artificial recopila datos sobre nuestra voz, nuestros rostros y nuestras acciones. Necesitamos una nueva generación de tecnología que respete nuestra privacidad”.
Chiquier agrega que la parte predictiva del sistema tiene un gran potencial para otras aplicaciones que necesitan procesamiento en tiempo real, como los vehículos autónomos. “Tienes que anticipar dónde estará el automóvil a continuación, dónde podría estar el peatón”, dice ella. Los cerebros también operan a través de la anticipación; te sorprendes cuando tu cerebro predice algo incorrectamente. En ese sentido, dice Chiquier, «estamos emulando la forma en que los humanos hacen las cosas».
«Hay algo bueno en la forma en que combina la predicción del futuro, un problema clásico en el aprendizaje automático, con este otro problema del aprendizaje automático antagónico», dice Andrew Owens, científico informático de la Universidad de Michigan, Ann Arbor, que estudia el procesamiento de audio. y camuflaje visual y no participó en el trabajo. Bo Li, científico informático de la Universidad de Illinois, Urbana-Champaign, que ha trabajado en ataques de adversarios de audio, quedó impresionado de que el nuevo enfoque funcionara incluso contra el sistema ASR fortificado.
El camuflaje de audio es muy necesario, dice Jay Stanley, analista principal de políticas de la Unión Estadounidense de Libertades Civiles. “Todos nosotros somos susceptibles de que los algoritmos de seguridad malinterpreten nuestro inocente discurso”. Mantener la privacidad es un trabajo duro, dice. O más bien es Harenar ov the reson.