Google contraataca con una respuesta al lanzamiento de Sora de OpenAI

La división DeepMind de Google presentó el lunes su modelo de generación de video Veo de segunda generación, que puede crear clips de hasta dos minutos de duración y con resoluciones que alcanzan la calidad 4K, es decir, seis veces la duración y cuatro veces la resolución de los clips de 20 segundos/1080p. Sora puede generar.
Por supuesto, esos son los límites superiores teóricos de Veo 2. Actualmente, el modelo sólo está disponible en VideoFX, la plataforma experimental de generación de vídeos de Google, y sus clips tienen un límite de ocho segundos y una resolución de 720p. VideoFX también está en lista de espera, por lo que no cualquiera puede iniciar sesión para probar Veo 2, aunque la compañía anunció que ampliará el acceso en las próximas semanas. Un portavoz de Google también señaló que Veo 2 estará disponible en la plataforma Vertex AI una vez que la compañía pueda escalar suficientemente las capacidades del modelo.
"Durante los próximos meses, continuaremos iterando en función de los comentarios de los usuarios", dijo Eli Collins a TechCrunch , "y [buscaremos] integrar las capacidades actualizadas de Veo 2 en casos de uso atractivos en todo el ecosistema de Google… Esperamos compartiremos más actualizaciones el próximo año”.
Hoy anunciamos Veo 2: nuestro modelo de generación de video de última generación que produce clips realistas y de alta calidad a partir de mensajes de texto o imágenes.
También estamos lanzando una versión mejorada de nuestro modelo de conversión de texto a imagen, Imagen 3, disponible para usar en ImageFX a través de… pic.twitter.com/h6ejHaMUM4
– Google DeepMind (@GoogleDeepMind) 16 de diciembre de 2024
Según se informa, Veo 2 tiene una serie de ventajas sobre sus predecesores, incluida una mejor comprensión de la física (piense en una mejor dinámica de fluidos y mejores efectos de iluminación/sombra), así como la capacidad de generar videoclips "más claros", en el sentido de que las texturas e imágenes generadas son Más nítido y menos propenso a desenfocarse al moverse. El nuevo modelo también ofrece controles de cámara mejorados, lo que permite al usuario colocar la lente de la cámara virtual con mayor precisión que antes.
Como señala TechCrunch, Veo 2 aún no ha perfeccionado el proceso de generación de video, aunque parece alucinar mucho menos que rivales como Sora , Kling , Movie Gen o Gen 3 Alpha . "La coherencia y la consistencia son áreas de crecimiento", dijo Collins. “Veo puede seguir constantemente una indicación durante un par de minutos, pero [no puede] seguir indicaciones complejas durante largos horizontes. De manera similar, la coherencia del carácter puede ser un desafío. También hay margen para mejorar en la generación de detalles intrincados, movimientos rápidos y complejos y en seguir superando los límites del realismo”.
Google también anunció mejoras en Imagen 3 el lunes, permitiendo que el modelo de generación de imágenes comerciales cree resultados "más brillantes y mejor compuestos". El modelo, disponible en ImageFX, también ofrecerá sugerencias descriptivas adicionales basadas en palabras clave en el mensaje del usuario, y cada palabra clave generará un menú desplegable de términos relacionados.