5 cosas con las que aún luchan los generadores de imágenes de IA

Los generadores de imágenes de IA como Dall-E , Stable Diffusion , Midjourney y Bing Image Creator producen resultados sorprendentes, pero a veces pueden ser increíblemente frustrantes. Con indicaciones simples que contienen solo unas pocas palabras, una IA puede generar imágenes impresionantes que parecen fotografías profesionales y arte convincente en varios estilos. Sin embargo, el mismo indicador ocasionalmente creará una criatura horrible o una representación hilarantemente defectuosa.

Las indicaciones negativas pueden ayudar a reducir la probabilidad de estos errores, pero la complejidad no siempre puede salvarlo. Incluso los expertos en IA luchan con criaturas deformes y escenas poco mundanas, lo que requiere largas horas de perfeccionamiento de indicaciones o retoques de imágenes con un editor de fotos tradicional. Por el momento, si observa cuidadosamente las áreas correctas de una imagen, es muy probable que pueda identificar si fue creada por una máquina.

Ensalada de mano y bolas de dedos

Los desarrolladores de IA han progresado en la lucha por enseñar a las herramientas de inteligencia artificial cómo deben verse las manos humanas, pero hay mucho margen de mejora. Si los dedos no se destacan de manera prominente, es fácil pasar por alto los errores, pero es un problema continuo.

Dall-E fue uno de los primeros líderes de la IA, pero las manos no son lo suyo.
Dall-E fue uno de los primeros líderes de la IA, pero las manos no son lo suyo. Dall-E impulsado por Alan Truly

Uno de los primeros y mejores generadores de imágenes de IA disponibles para el público, Dall-E de OpenAI , creó estas imágenes de personas cogidas de la mano. A primera vista, podría verse bien. En una inspección más cercana, algunos problemas se hacen evidentes. Tenga cuidado con los dedos extra, las uñas extrañas y los dígitos fusionados.

Los agarres complicados y los dedos entrelazados son aún más desafiantes. No se sorprenda si sus imágenes de IA vuelven con fallas clásicas conocidas como "ensalada de manos" o "bolas de los dedos".

Las manos entrelazadas de Dall-E son inquietantes.
Las manos entrelazadas de Dall-E son inquietantes. Dall-E impulsado por Alan Truly

Texto y escritura preocupantes

Es de esperar que el texto sea fácil de generar para una computadora. Ve evidencia de palabras en las pantallas todos los días cuando levanta el teléfono o abre un navegador. Las primeras computadoras, a diferencia de las mejores PC para juegos de la actualidad, no podían mostrar gráficos de ningún tipo. Todo era texto o números.

Leonardo AI conoce los estilos, pero el texto impreso es un desafío.
Leonardo AI conoce los estilos, pero el texto impreso es un desafío. Leonardo AI impulsado por Alan Truly

Sin embargo, mostrar letras y símbolos reales como palabras impresas o escritas es sorprendentemente complicado para un generador de imágenes de IA . Puede sonar como un problema fácil de resolver, pero no lo es. Una aplicación no puede simplemente superponer texto sin formato. Para ser convincente, el estilo del texto, el sombreado, el ángulo y la perspectiva deben coincidir con el resto de la escena.

En el ejemplo, un generador de imágenes de IA relativamente nuevo, Leonardo AI, hizo un gran esfuerzo con una valla publicitaria antigua para el restaurante de Jack Rabbit Slim. Después de varios intentos, la IA logró deletrear "Jack Rabbit's", que se acerca bastante a la solicitud. El estilo de la fotografía antigua era perfecto en cada imagen, pero las letras y las palabras tenían fallas en su mayoría.

Leonardo AI estuvo cerca de obtener el texto correcto en uno de estos renders.
Leonardo AI estuvo cerca de obtener el texto correcto en el renderizado de la izquierda. Renders de Leonardo AI impulsados ​​por Alan Truly

Los ojos no lo tienen

Bing Image Creator tiene problemas con los ojos.
Creador de imágenes de Bing impulsado por Alan Truly

A menudo se dice que los ojos son las ventanas del alma. Confiamos tanto en el contacto visual que podría ser el detalle más crítico en la creación de un retrato realista. Pero muchas herramientas de IA tienen dificultades para representar ojos humanos.

Bing Image Creator hizo un trabajo decente con el fondo del estudio y posó una foto familiar multigeneracional. Sin embargo, casi todas las personas tienen ojos extraños que parecen haber sido insertados por extraterrestres, o tal vez estas personas sonrientes están en proceso de transformarse en criaturas sobrenaturales.

Dos ejemplos más cercanos de los problemas oculares de Bing Image Creator.
Dos ejemplos más cercanos de los inquietantes problemas oculares de Bing Image Creator. Creador de imágenes de Bing impulsado por Alan Truly

herramientas problemáticas

Los humanos son excelentes con las herramientas y no solo con la variedad digital como la IA. Rápidamente dominamos cualquier herramienta física a nuestro alcance. Una IA, por otro lado, lucha por comprender qué son y cómo se usan.

Midjourney entiende las manos, pero las llaves lo desconciertan.
Midjourney entiende las manos, pero las llaves lo desconciertan. ¿Es eso una bombilla en la parte inferior izquierda? Midjourney impulsado por Alan Truly

Midjourney es un generador de imágenes de IA que está logrando un progreso fantástico en la resolución de problemas con rostros y manos humanos. Sin embargo, cuando se le pide que muestre a un mecánico apretando un perno con una llave, la herramienta está completamente ausente. Las uñas se agregan a los guantes en un caso, y una bombilla de luz aparece de alguna manera en otro.

Las tijeras son demasiado complicadas para Bing Image Creator en este renderizado de primer plano del corte de cabello. Solo están abiertos en una imagen y nunca parecen estar en el acto de cortar.

Bing Image Creator no puede descifrar las tijeras.
Bing Image Creator no puede entender cómo funcionan las tijeras. Creador de imágenes de Bing impulsado por Alan Truly

dientes de pesadilla

Los renderizados de sonrisas de Stable Diffusion a veces tienen demasiados dientes.
Difusión estable a través de Leonardo AI, impulsada por Alan Truly

Cuando la gente sonríe y se ríe, eso suele mejorar una imagen, haciéndola agradable y divertida. Cuando se le da un aviso simple como dos estudiantes sonriendo y riendo, una IA puede convertir esto en combustible de pesadilla con múltiples filas de dientes y otras distorsiones extrañas.

Leonardo AI le permite elegir entre varios modelos, y algunos manejan bien los dientes. El popular modelo Stable Diffusion 2.1 necesitaba ayuda para tener los dientes bien. Con algunas indicaciones negativas, el problema se resolvió. Existen soluciones para estos problemas de imagen de IA, pero todavía se necesita trabajo para obtener buenos resultados.

Las sonrisas de difusión estable se benefician de las indicaciones negativas.
Las sonrisas de difusión estable se benefician de las indicaciones negativas para eliminar los "dientes extraños" y la "boca distorsionada". Difusión estable a través de Leonardo AI, impulsada por Alan Truly

El arte de la IA está mejorando rápidamente

En los primeros días del arte de la IA, los resultados eran extraños y maravillosos, creando belleza y horror con igual abandono. Los errores son cada vez menos perceptibles con cada nueva actualización, y muchos problemas se pueden solucionar con un poco de refinamiento.

Con tantas herramientas de IA disponibles , es fácil probar otro sistema. Muchos generadores de imágenes de IA permiten indicaciones negativas u otras opciones para ajustar el algoritmo y obtener mejores resultados.

Es posible que deba realizar varios intentos para obtener una imagen utilizable, especialmente si hay un enfoque en las caras o las manos. Cuando desee incluir palabras impresas o escritas, prepárese para pasar tiempo en un editor de imágenes borrando las letras sin sentido de la IA y mezclando el texto correcto.

La buena noticia es que muchos generadores de imágenes de IA son gratuitos y los modelos de suscripción son relativamente económicos. Dentro de un año, estos problemas persistentes podrían resolverse, permitiéndole usar un renderizado de IA como una obra de arte terminada ocomo reemplazo de una fotografía .