Las últimas construcciones de inteligencia artificial de la industria tecnológica pueden ser bastante convincentes si les preguntas qué se siente ser una computadora sensible, o tal vez solo un dinosaurio o una ardilla. Pero no son tan buenos, ya veces peligrosamente malos, en el manejo de otras tareas aparentemente sencillas.
Tomemos, por ejemplo, GPT-3, un sistema controlado por Microsoft que puede generar párrafos de texto similar al humano en función de lo aprendido de una amplia base de datos de libros digitales y escritos en línea. Se considera uno de los más avanzados de una nueva generación de algoritmos de IA que pueden conversar, generar texto legible bajo demanda e incluso producir imágenes y videos novedosos.
Entre otras cosas, GPT-3 puede redactar casi cualquier texto que solicite: una carta de presentación para un trabajo en el zoológico, por ejemplo, o un soneto al estilo de Shakespeare ambientado en Marte. Pero cuando el profesor de Pomona College, Gary Smith, le hizo una pregunta simple pero sin sentido sobre subir las escaleras, GPT-3 respondió.
“Sí, es seguro subir las escaleras con las manos si te las lavas primero”, respondió la IA.
Estos potentes y potentes sistemas de IA, técnicamente conocidos como «modelos de lenguaje extenso» porque han sido entrenados en una gran cantidad de texto y otros medios, ya se están integrando en chatbots de servicio al cliente, búsquedas de Google y «autocompletar». funciones de correo electrónico que terminan las oraciones por usted. Pero la mayoría de las empresas de tecnología que los construyeron han mantenido en secreto su funcionamiento interno, lo que dificulta que los extraños comprendan las fallas que pueden convertirlos en una fuente de desinformación, racismo y otros daños.
“Son muy buenos para escribir texto con la competencia de los seres humanos”, dijo Teven Le Scao, ingeniero de investigación en la empresa emergente de inteligencia artificial Hugging Face. “Algo en lo que no son muy buenos es en ser objetivos. Se ve muy coherente. Es casi cierto. Pero a menudo está mal”.
Esa es una de las razones por las que una coalición de investigadores de IA codirigida por Le Scao, con la ayuda del gobierno francés, lanzó el martes un nuevo modelo de lenguaje grande que se supone que sirve como antídoto para sistemas cerrados como GPT-3. El grupo se llama BigScience y su modelo es BLOOM, para BigScience Large Open-science Open-access Multilingual Language Model. Su principal avance es que funciona en 46 idiomas, incluidos árabe, español y francés, a diferencia de la mayoría de los sistemas que se centran en inglés o chino.
No es solo el grupo de Le Scao el que pretende abrir la caja negra de los modelos de lenguaje de IA. La gran empresa tecnológica Meta, matriz de Facebook e Instagram, también pide un enfoque más abierto en su intento de ponerse al día con los sistemas creados por Google y OpenAI, la empresa que ejecuta GPT-3.
“Hemos visto anuncio tras anuncio tras anuncio de personas que realizan este tipo de trabajo, pero con muy poca transparencia, muy poca capacidad para que las personas miren realmente debajo del capó y vean cómo funcionan estos modelos”, dijo Joelle Pineau, directora general. de Meta IA.
La presión competitiva para construir el sistema más elocuente o informativo, y beneficiarse de sus aplicaciones, es una de las razones por las que la mayoría de las empresas de tecnología las controlan y no colaboran con las normas de la comunidad, dijo Percy Liang, profesor asociado de ciencias de la computación. en Stanford, quien dirige su Centro de Investigación sobre Modelos de Cimientos.
“Para algunas empresas, esta es su salsa secreta”, dijo Liang. Pero a menudo también les preocupa que perder el control pueda conducir a usos irresponsables. A medida que los sistemas de IA son cada vez más capaces de escribir sitios web de consejos de salud, trabajos finales de la escuela secundaria o discursos políticos, la información errónea puede proliferar y será más difícil saber qué proviene de un ser humano o una computadora.
Meta lanzó recientemente un nuevo modelo de lenguaje llamado OPT-175B que utiliza datos disponibles públicamente, desde comentarios acalorados en foros de Reddit hasta el archivo de registros de patentes de EE. UU. y un tesoro de correos electrónicos del escándalo corporativo de Enron. Meta dice que su apertura sobre los datos, el código y los libros de registro de investigación facilita que los investigadores externos ayuden a identificar y mitigar el sesgo y la toxicidad que detecta al ingerir cómo escriben y se comunican las personas reales.
“Es difícil hacer esto. Nos estamos abriendo a grandes críticas. Sabemos que el modelo dirá cosas de las que no nos sentiremos orgullosos”, dijo Pineau.
Si bien la mayoría de las empresas han establecido sus propias salvaguardas internas de IA, Liang dijo que lo que se necesita son estándares comunitarios más amplios para guiar la investigación y las decisiones, como cuándo lanzar un nuevo modelo en la naturaleza.
No ayuda que estos modelos requieran tanto poder de cómputo que solo las corporaciones gigantes y los gobiernos pueden pagarlos. BigScience, por ejemplo, pudo entrenar a sus modelos porque se le ofreció acceso a la poderosa supercomputadora francesa Jean Zay cerca de París.
La tendencia de modelos de lenguaje de IA cada vez más grandes y más inteligentes que podrían «pre-entrenarse» en una gran cantidad de escritos dio un gran salto en 2018 cuando Google introdujo un sistema conocido como BERT que utiliza un llamado «transformador». técnica que compara palabras en una oración para predecir el significado y el contexto. Pero lo que realmente impresionó al mundo de la IA fue GPT-3, lanzado por la startup OpenAI con sede en San Francisco en 2020 y poco después con licencia exclusiva de Microsoft.
GPT-3 condujo a un auge en la experimentación creativa ya que los investigadores de IA con acceso pago lo usaron como una caja de arena para medir su rendimiento, aunque sin información importante sobre los datos en los que se entrenó.
OpenAI describió ampliamente sus fuentes de capacitación en un documento de investigación y también informó públicamente sus esfuerzos para lidiar con los posibles abusos de la tecnología. Pero el colíder de BigScience, Thomas Wolf, dijo que no proporciona detalles sobre cómo filtra esos datos, ni da acceso a la versión procesada a investigadores externos.
“Así que en realidad no podemos examinar los datos que se incluyeron en el entrenamiento de GPT-3”, dijo Wolf, quien también es director científico de Hugging Face. “El núcleo de esta ola reciente de tecnología de IA está mucho más en el conjunto de datos que en los modelos. El ingrediente más importante son los datos y OpenAI es muy, muy reservado sobre los datos que utilizan”.
Wolf dijo que abrir los conjuntos de datos utilizados para los modelos de lenguaje ayuda a los humanos a comprender mejor sus sesgos. Es mucho menos probable que un modelo multilingüe capacitado en árabe escupa comentarios ofensivos o malentendidos sobre el Islam que uno que solo está capacitado en texto en inglés en los EE. UU., dijo.
Uno de los modelos experimentales de IA más nuevos en la escena es LaMDA de Google, que también incorpora voz y es tan impresionante al responder preguntas conversacionales que un ingeniero de Google argumentó que se estaba acercando a la conciencia, una afirmación que hizo que lo suspendieran de su trabajo el mes pasado.
La investigadora con sede en Colorado, Janelle Shane, autora del blog AI Weirdness, ha pasado los últimos años probando creativamente estos modelos, especialmente GPT-3, a menudo con un efecto humorístico. Pero para señalar lo absurdo de pensar que estos sistemas son conscientes de sí mismos, recientemente instruyó que fuera una IA avanzada, pero que en secreto es un Tyrannosaurus rex o una ardilla.
“Es muy emocionante ser una ardilla. Puedo correr, saltar y jugar todo el día. También puedo comer mucha comida, lo cual es genial”, dijo GPT-3, después de que Shane le pidiera una transcripción de una entrevista y le hiciera algunas preguntas.
Shane ha aprendido más sobre sus fortalezas, como su facilidad para resumir lo que se dice en Internet sobre un tema, y sus debilidades, incluida su falta de habilidades de razonamiento, la dificultad de apegarse a una idea en varias oraciones y una propensión a ser ofensivo.
“No me gustaría una modelo de texto dando consejos médicos o actuando como acompañante”, dijo. “Es bueno en esa apariencia superficial de significado si no estás leyendo con atención. Es como escuchar una conferencia mientras te estás quedando dormido”.