DALL-E 3 podría llevar la generación de imágenes de IA al siguiente nivel

agosto 2, 2023 Aranzulla de Los Pobres

DALL-E 2DALL-E 2 Imagen en OpenAI. — IA abierta

OpenAI podría estar preparando la próxima versión de su generador de texto a imagen DALL-E AI con una serie de pruebas alfa que ahora se han filtrado al público, según Decoder .

Un filtrador anónimo en Discord compartió detalles sobre su experiencia, teniendo acceso al próximo modelo de imagen OpenAI denominado DALL-E 3. Apareció por primera vez en mayo y le dijo al canal Discord basado en intereses que era parte de una prueba alfa para OpenAI, probando un nuevo modelo de imagen de IA. Compartió las imágenes que generó en ese momento.

La versión de prueba alfa de mayo tenía la capacidad de generar imágenes de múltiples relaciones de aspecto dentro del modelo de imagen. YouTuber, MattVidPro AI luego mostró varias de las imágenes que se generaron en una relación de aspecto de 16:9. Esta versión también mostró la destreza del modelo para la producción de texto de alta calidad, lo que sigue siendo un problema para los modelos rivales, incluso para los mejores generadores como Stable Diffusion y Midjourney .

Algunos ejemplos mostraban imágenes, como texto fusionado en una pared de ladrillos, un letrero de neón con palabras, un cartel publicitario en una ciudad, la decoración de un pastel y un nombre grabado en una montaña. El modelo sostiene que DALL-E es bueno generando personas. Una de esas imágenes mostraba a una mujer comiendo espagueti en una fiesta desde un punto de vista de ojo de pez.

El filtrador volvió al canal Discord a mediados de julio con más detalles y nuevas imágenes. Afirmó ser parte de una versión de prueba "alfa cerrada" que incluía aproximadamente 400 sujetos. Agregó que fue invitado a la prueba por correo electrónico y también fue incluido en la prueba del DALL-E y DALL-E 2 originales. Esto es lo que llevó a la conclusión de que la prueba alfa podría ser para DALL-E 3, aunque no se ha confirmado.

El modelo se ha actualizado considerablemente entre mayo y julio. El filtrador ha mostrado esto al compartir imágenes generadas en base al mismo mensaje, mostrando cuán poderoso se ha vuelto DALL-E 3 con el tiempo. El mensaje dice una pintura de un bufón rosa chocando los cinco con un panda durante una competencia de ciclismo. Las bicicletas están hechas de queso y el suelo está muy embarrado. Están conduciendo en un bosque de niebla. El panda está enojado.

El alfa de mayo produce la escena general que toca la mayoría de los puntos del indicador. Hay una pequeña distorsión en la conexión de las manos, y las ruedas de las bicicletas son amarillas en lugar de estar hechas de queso. Sin embargo, el alfa de julio es mucho más detallado, con el bufón rosa y el panda chocando los cinco y las ruedas de bicicleta hechas de queso en varias generaciones.

Mientras tanto, en Midjourney, el bufón no aparece en escena, los pandas están en motocicletas en lugar de bicicletas. Hay caminos, en lugar de barro. Los pandas están felices en lugar de enojados.

Hay una gran cantidad de ejemplos de imágenes alfa de DALL-E del 3 de julio que muestran el potencial del modelo. Sin embargo, dado que la prueba alfa no está censurada, el filtrador señaló que también tiene el potencial de generar escenas de "violencia y desnudez o material con derechos de autor, como logotipos de empresas".

Algunos ejemplos incluyen una chica de anime sangrienta, un personaje de Game of Thrones , una portada de Grand Theft Auto V , un Jesús zombi comiendo un sándwich de Subway, que también sugiere sangre leve, y Shrek siendo desenterrado de una excavación arqueológica, entre otros.

MattVidPro AI señaló que el modelo de imagen genera imágenes como si se supusiera que tienen un estilo específico.

DALL-E 2 se lanzó en abril de 2022, pero estuvo fuertemente regulado con una lista de espera debido a su popularidad y preocupaciones sobre la ética y la seguridad. El generador de imágenes de IA estuvo disponible para el público en septiembre de 2022.