La generación de imágenes mediante IA acaba de dar un gran paso adelante

Hemos estado viviendo con imágenes generadas por IA desde hace un tiempo, pero esta semana, algunos de los principales actores dieron grandes pasos hacia adelante. En particular, me refiero a actualizaciones importantes de Midjourney , el nuevo modelo de Google, y Grok .

Cada empresa muestra la tecnología evolucionando a diferentes ritmos y en diferentes direcciones. Sigue siendo en gran medida un campo de juego abierto y cada empresa demuestra hasta dónde han llegado los avances.

Midjourney llega a la web

El profesor Dumbledore junto a una piscina en Harry Potter de Wes Anderson.
Una imagen de IA generada en Midjourney. Canal/Midviaje

Comencemos con Midjourney, que silenciosamente lanzó un nuevo editor web el jueves por la noche que reúne una serie de herramientas útiles de manipulación de imágenes en una única interfaz de usuario.

Anteriormente, funciones como reencuadrar, repintar (agregar recursos generados por IA o modificar una imagen existente), panorámica, extensión del lienzo (expandir los límites de la imagen y generar contenido para rellenar) y hacer zoom requerían su propia herramienta específica para usar y estaban ubicados en múltiples menús, lo que requería que los creadores cambiaran constantemente de un lado a otro. Esta nueva interfaz de usuario ofrece un proceso de edición más coherente y optimizado, una marcada desviación del inicio del programa en Discord.

El nuevo editor web está diseñado para hacer que la edición de imágenes generadas por IA sea más fácil y fluida, según informó recientemente el CEO de Midjourney, David Holz, en Discord. "Creemos que esto hace que la edición de imágenes de MJ sea mucho más fluida que antes y es un gran paso adelante", escribió.

Aunque Midjourney continúa alejándose de Discord para convertirse en una aplicación basada en web, la compañía también anunció que reflejará mensajes de canales populares como “daily-theme”, “prompt-craft” y “general-1” entre sus sitios web. salas y canales de Discord para que las personas puedan seguir esos hilos desde la plataforma que prefieran. La compañía también presentó una nueva herramienta de selección que funciona como un pincel digital y que ha reemplazado tanto a la herramienta de selección cuadrada como a la herramienta de lazo.

El nuevo editor está disponible para todos los usuarios de Midjourney que ya hayan generado más de 10 imágenes en la plataforma. Las reacciones iniciales de la comunidad de creadores han sido en gran medida positivas.

El editor llega dos semanas después del lanzamiento de Midjourney 6.1 , que mejoró la calidad y la coherencia de la imagen (como el número correcto de dedos), así como también mejoró significativamente los tiempos de procesamiento y la precisión de la comprensión del texto en sus indicaciones de imagen.

Grok-2 desata al monstruo

La actualización Midjourney también llega solo dos días después del lanzamiento de Grok-2 por parte de la startup xAI de Elon Musk, que es el próximo gran acontecimiento que sucedió esta semana.

Las capacidades de generación de imágenes de Grok están impulsadas por el modelo Flux.1 de Black Forrest Lab, cuya popularidad ha ido creciendo rápidamente debido a su impresionante calidad de imagen y su uso gratuito.

La mayor controversia con Grok-2 no es sólo su calidad, que es bastante buena, sino sus directrices aparentemente indefinidas. A diferencia de muchos de los otros generadores de imágenes de IA, Grok-2 parece tener muy pocas pautas en términos de propiedad intelectual, violencia y otros contenidos explícitos. No es la primera vez que un generador de imágenes de IA ve este tipo de error, pero con Grok, parece intencionado, y Musk lo llama "la IA más divertida del mundo".

La gente ya ha puesto a prueba sus límites y ha creado todo tipo de imágenes horribles y extrañas, que evocan los primeros días de la generación de imágenes mediante IA. Pero si se cree en la retórica de Musk, la falta de pautas de Grok-2 parece útil y podría terminar dando forma a cómo evoluciona esta tecnología en el futuro.

Google se vuelve competitivo con Imagen 3

Una imagen de IA generada por el modelo Imagen-3 de Google. Google

Por último, Google anunció su nuevo modelo Imagen 3 AI , que se lanzó a todos los usuarios de EE. UU. el jueves . Google lo llama su “modelo de conversión de texto a imagen de la más alta calidad”, ahora capaz de producir “mejores detalles, una iluminación más rica y pocos artefactos que distraigan que nuestros modelos anteriores”. Google también dice que Imagen-3 es mejor para representar texto y ahora viene en diferentes versiones, diseñadas para la tarea en cuestión, como algo liviano como un boceto rápido o algo mucho más detallado y de alta resolución.

Por ahora, Imagen 3 solo está disponible a través de AI Test Kitchen de Google, como parte de ImageFX. Actualmente se encuentra en versión beta cerrada, lo que significa que tendrás que unirte a la lista de espera si aún no eres participante.