Prepárese: los GIF generados por IA podrían estar disponibles pronto

abril 21, 2023 Aranzulla de Los Pobres

Con los chatbots ylos generadores de texto a imagen conquistando Internet, la próxima frontera de la IA podría ser los generadores de texto a video.

Nvidia publicó recientemente un artículo de investigación llamado "Síntesis de video de alta resolución con modelos de difusión latente" sobre sus experimentos en su laboratorio de IA de Toronto que detalla cómo usa Stable Diffusion para crear una herramienta que puede hacer que el arte en movimiento resulte a partir de indicaciones de texto.

La empresa de tecnología mostró demostraciones de los modelos de difusión latente (LDM), que utilizan texto para generar videoclips sin grandes cantidades de procesamiento informático, señaló TechRadar .

La herramienta puede generar imágenes en movimiento de estilo GIF que son videos de aproximadamente 4,7 segundos de duración con una resolución de 1280 x 2048. También es capaz de crear videos más largos con una resolución más baja de 512 x 1024, según el trabajo de investigación.

Habiendo visto una demostración de la tecnología, TechRadar dijo que la herramienta probablemente sea ideal como generador de texto a GIF en este momento. La publicación señaló que podría manejar fácilmente indicaciones simples como un soldado de asalto aspirando en la playa o un oso de peluche tocando la guitarra eléctrica, alta definición, 4K . Aun así, el resultado aún produjo artefactos aleatorios y manchas en los GIF, como es común en otras herramientas de IA de uso regular, como Midjourney .

La publicación cree que los videos más largos aún necesitan un poco más de desarrollo antes de que lleguen al horario de máxima audiencia, pero siente que Nvidia trabajará rápidamente para tener la tecnología lista. Podrían funcionar bien para bibliotecas de valores y fines similares.

Hay otras empresas que están experimentando con generadores de texto a video con IA. Google hizo una demostración de su generador Phenaki, que permite indicaciones más largas que producen clips de 20 segundos. Otra startup llamada Runway anunció su modelo de video de segunda generación el mes pasado, que también se basa en Stable Diffusion. Su demostración del mensaje , el sol de la tarde que se asoma por la ventana de un loft de la ciudad de Nueva York, muestra cómo puede agregar ligeros efectos de movimiento a las imágenes fijas.

Los usuarios también se beneficiarán de la incorporación de IA en otros programas, como Adobe Firefly y Adobe Premiere Rush, según TechRadar.

Algunas otras empresas, como Narakeet y Lume5 , se comercializan como generadores de texto a video. Sin embargo, muchas de estas herramientas funcionan más como presentaciones de PowerPoint, reuniendo texto, audio, imágenes y quizás algunos clips de video ya producidos con indicaciones, en lugar de generar un trabajo único.