El laboratorio de investigación de inteligencia artificial de San Francisco, OpenAI, anunció la semana pasada que su IA de generación de imágenes, DALL-E, recibió una importante actualización, informó Revisión de tecnología del MIT.
DALL-E 2, como se llama la herramienta actualizada, convierte mensajes de texto en imágenes como su predecesor. Sin embargo, según los informes, la nueva versión es mucho más avanzada, ya que crea imágenes que coinciden con mayor precisión con el mensaje de texto e incluso se pueden modificar para incorporar diferentes estilos.
Si esperaba que trabajar en un campo creativo fuera una forma segura de evitar que la IA automatice su placa, parece que ni siquiera ese campo de experiencia es seguro.
DALL-E 1, la versión anterior de la herramienta, parecía un divertido truco de fiesta: ingrese algunas palabras simples, como «aguacate + sillón», y la herramienta produciría valientemente una imagen para el mashup absurdo. Los resultados mostraron las características visuales psicodélicas y los fallos comunes en la producción de imágenes de IA, pero no obstante fueron impresionantes.
DALL-E 2 es mucho más específico y preciso. Dos frases de prueba proporcionadas por OpenAI, «Ositos de peluche que mezclan productos químicos brillantes como científicos locos, steampunk» y «Una fotografía macro de película de 35 mm de una gran familia de ratones con sombreros junto a la chimenea», dieron como resultado una perfección lista para un libro de cuentos. Las solicitudes para generar imágenes al estilo de Vermeer o Gaugin también tuvieron bastante éxito.
«Una forma en que puede pensar en esta red neuronal es la belleza trascendente como servicio», dijo Ilya Sutskever, cofundador y científico jefe de OpenAI. MIT. “De vez en cuando genera algo que simplemente me hace jadear”.
Pero estos son ejemplos de momentos en los que DALL-E 2 se desempeñó al máximo de su capacidad. Un aviso para representar a un astronauta montando un caballo al estilo de Andy Warhol deja mucho que desear. El mismo mensaje, en estilo fotorrealista en oposición al estilo de Warhol, es mucho más impresionante. Sin embargo, una mirada más cercana revela algunas debilidades. Como muchos artistas principiantes, DALL-E 2 parece tener problemas para representar manos y pies.
DALL-E 2 también se puede utilizar para editar imágenes existentes. Por ejemplo, un perro sentado en un sillón puede ser reemplazado por un gato. Aunque DALL-E 2 podría tener potencialmente un gran impacto en la forma en que las personas producen imágenes, en el sentido de que algo como Photoshop generó, el propósito de desarrollar DALL-E y sus iteraciones proviene de un proyecto de investigación más amplio sobre el desarrollo de AGI, o artificial. inteligencia general, frase que representa a un agente verdaderamente inteligente.
“Nuestro objetivo es crear inteligencia general”, dijo el investigador Prafulla Dhariwal. MIT. “Construir modelos como DALL-E 2 que conectan la visión y el lenguaje es un paso crucial en nuestro objetivo más amplio de enseñar a las máquinas a percibir el mundo de la misma manera que lo hacen los humanos y, finalmente, desarrollar AGI”.
OpenAI aún no ha lanzado DALL-E 2 como un software de fácil acceso, ya que todavía están probando la tecnología. Los investigadores están tratando de asegurarse de que no se utilice para crear imágenes violentas o falsificaciones profundas, entre otras preocupaciones.
Sin embargo, hay planes para eventualmente lanzar DALL-E 2 al público.