Probé el futuro de la generación de imágenes con IA. Es asombrosamente rápido.
Uno de los principales problemas de la IA es la notoriamente alta demanda de energía y computación, especialmente para tareas como la generación de medios. En los teléfonos móviles, cuando se trata de ejecutarse de forma nativa, sólo un puñado de dispositivos costosos con silicio potente pueden ejecutar el conjunto de funciones. Incluso cuando se implementa a escala en la nube, es un asunto costoso .
Es posible que Nvidia haya abordado silenciosamente ese desafío en asociación con la gente del Instituto de Tecnología de Massachusetts y la Universidad de Tsinghua. El equipo creó una herramienta híbrida de generación de imágenes de IA llamada HART (transformador autorregresivo híbrido) que esencialmente combina dos de las técnicas de creación de imágenes de IA más utilizadas. El resultado es una herramienta increíblemente rápida con requisitos informáticos dramáticamente menores.
Sólo para darte una idea de lo rápido que es, le pedí que creara una imagen de un loro tocando un bajo. Regresó con la siguiente imagen en aproximadamente un segundo. Apenas podía seguir la barra de progreso. Cuando presioné el mismo mensaje antes del modelo Imagen 3 de Google en Gemini , me tomó aproximadamente entre 9 y 10 segundos con una conexión a Internet de 200 Mbps.

Un gran avance
Cuando las imágenes de IA comenzaron a causar sensación, la técnica de difusión estaba detrás de todo, impulsando productos como el generador de imágenes Dall-E de OpenAI , Imagen de Google y Stable Diffusion . Este método puede producir imágenes con un nivel de detalle extremadamente alto. Sin embargo, es un enfoque de varios pasos para crear imágenes de IA y, como resultado, es lento y costoso desde el punto de vista computacional.
El segundo enfoque que ha ganado popularidad recientemente son los modelos autorregresivos, que esencialmente funcionan de la misma manera que los chatbots y generan imágenes utilizando una técnica de predicción de píxeles. Es un método más rápido, pero también más propenso a errores, para crear imágenes utilizando IA.
El equipo del MIT fusionó ambos métodos en un único paquete llamado HART. Se basa en un modelo de autorregresión para predecir los activos de imágenes comprimidas como un token discreto, mientras que un pequeño modelo de difusión maneja el resto para compensar la pérdida de calidad. El enfoque general reduce el número de pasos involucrados de más de dos docenas a ocho pasos.
Los expertos detrás de HART afirman que puede "generar imágenes que igualan o superan la calidad de los modelos de difusión más modernos, pero lo hacen unas nueve veces más rápido". HART combina un modelo autorregresivo con un rango de 700 millones de parámetros y un modelo de difusión pequeño que puede manejar 37 millones de parámetros.

Resolver la crisis del cálculo de costes
Curiosamente, esta herramienta híbrida fue capaz de crear imágenes que igualaban la calidad de los modelos de gama alta con una capacidad de 2 mil millones de parámetros. Lo más importante es que HART pudo alcanzar ese hito a una velocidad de generación de imágenes nueve veces más rápida y, al mismo tiempo, requirió un 31 % menos de recursos informáticos.
Según el equipo, el enfoque de baja computación permite que HART se ejecute localmente en teléfonos y computadoras portátiles, lo cual es una gran ventaja. Hasta ahora, los productos más populares del mercado masivo, como ChatGPT y Gemini, requieren una conexión a Internet para la generación de imágenes mientras la computación se realiza en los servidores de la nube.
En el video de prueba, el equipo lo mostró ejecutándose de forma nativa en una computadora portátil MSI con el procesador de la serie Intel Core y una tarjeta gráfica Nvidia GeForce RTX. Esa es una combinación que puede encontrar en la mayoría de las computadoras portátiles para juegos que existen, sin gastar una fortuna.

HART es capaz de producir imágenes con una relación de aspecto 1:1 con una resolución respetable de 1024 x 1024 píxeles. El nivel de detalle de estas imágenes es impresionante, al igual que la variación estilística y la precisión del escenario. Durante sus pruebas, el equipo observó que la herramienta híbrida de IA era entre tres y seis veces más rápida y ofrecía un rendimiento siete veces mayor.
El potencial futuro es apasionante, especialmente cuando se integran las capacidades de imagen de HART con modelos de lenguaje. "En el futuro, se podría interactuar con un modelo generativo unificado de visión y lenguaje, tal vez pidiéndole que muestre los pasos intermedios necesarios para ensamblar un mueble", dice el equipo del MIT.
Ya están explorando esa idea e incluso planean probar el enfoque HART en la generación de audio y video . Puedes probarlo en el panel web del MIT.
Algunas asperezas
Antes de sumergirnos en el debate sobre la calidad, tenga en cuenta que HART es en gran medida un proyecto de investigación que aún se encuentra en sus primeras etapas. En el aspecto técnico, el equipo destacó algunas molestias, como los gastos generales durante el proceso de inferencia y entrenamiento.

Los desafíos pueden solucionarse o pasarse por alto, porque son menores en el esquema más amplio de las cosas aquí. Además, teniendo en cuenta los grandes beneficios que ofrece HART en términos de eficiencia informática, velocidad y latencia, es posible que persistan sin provocar problemas importantes de rendimiento.
En el breve tiempo que pasé probando HART, me sorprendió el ritmo de generación de imágenes. Apenas me encontré con un escenario en el que la herramienta web gratuita tardaba más de dos segundos en crear una imagen. Incluso con indicaciones que abarcan tres párrafos (aproximadamente más de 200 palabras), HART pudo crear imágenes que se ajustan estrictamente a la descripción.

Aparte de la precisión descriptiva, las imágenes contenían muchos detalles. Sin embargo, HART adolece de los fallos típicos de una herramienta generadora de imágenes de IA. Tiene problemas con los dígitos, las representaciones básicas como comer alimentos, la coherencia de los personajes y fallar en la captura de perspectiva.
El fotorrealismo en el contexto humano es un área en la que noté fallos evidentes. En algunas ocasiones simplemente se equivocó en el concepto de objetos básicos, como confundir un anillo con un collar. Pero en general, esos errores fueron pocos, y fundamentalmente esperados. Un buen grupo de herramientas de inteligencia artificial todavía no pueden hacerlo bien, a pesar de que ya llevan un tiempo disponibles.
En general, estoy especialmente entusiasmado con el inmenso potencial de HART. Sería interesante ver si el MIT y Nvidia crean un producto a partir de él o simplemente adoptan el enfoque híbrido de generación de imágenes de IA en un producto existente. De cualquier manera, es un vistazo a un futuro muy prometedor.