Sora de OpenAI no se siente tan revolucionario como se suponía que sería
OpenAI ha provocado y retrasado repetidamente el lanzamiento de Sora durante casi un año. El martes, la compañía finalmente presentó una versión completamente funcional del nuevo modelo de generación de video destinada al uso público y, a pesar del revuelo inicial, cada vez más usuarios iniciales del lanzamiento no parecen demasiado impresionados. Y yo tampoco.
Presentamos Sora, nuestro modelo de texto a video.
Sora puede crear vídeos de hasta 60 segundos con escenas muy detalladas, movimientos de cámara complejos y múltiples personajes con emociones vibrantes. https://t.co/7j2JN27M3W
Mensaje: “Hermoso, nevado… pic.twitter.com/ruTEWn87vf
– OpenAI (@OpenAI) 15 de febrero de 2024
La compañía presentó Sora por primera vez en febrero pasado y recibió elogios de la crítica por sus representaciones de video hiperrealistas. "Sora puede generar vídeos de hasta un minuto de duración manteniendo la calidad visual y el cumplimiento de las indicaciones del usuario", escribió OpenAI en su blog de anuncio en ese momento. "El modelo comprende no sólo lo que el usuario ha pedido en el mensaje, sino también cómo existen esas cosas en el mundo físico".
OpenAI sigue publicando más vídeos locos de Sora
Estos son 100% generados por IA.
9 vídeos de flexión de la realidad
1. Elefante hecho con hojas pic.twitter.com/tPsHNGbFPS
– Linus Ekenstam (@LinusEkenstam) 18 de marzo de 2024
La compañía publicó más imágenes generadas por Sora en marzo,esta vez de un elefante hecho de hojas , promocionando aún más las capacidades del modelo. Posteriormente, el programa Sora sufrió una serie de retrasos en el desarrollo, que el director de producto de OpenAI, Kevin Weil, atribuyó en un reciente AMA de Reddit a la "necesidad de perfeccionar el modelo, lograr la seguridad/suplantación/otras cosas correctamente y escalar la computación". Al mismo tiempo, The Information informó que las primeras iteraciones de Sora sufrieron un rendimiento deficiente y lucharon por mantener el enfoque en las indicaciones del usuario, requiriendo hasta 10 minutos del mundo real para generar un clip de un minuto de duración. El modelo también fue filtrado recientemente en línea por un grupo de probadores beta descontentos que se opusieron a las prácticas de "lavado de arte" de OpenAI ; sin embargo, la compañía rápidamente eliminó la interfaz de usuario no autorizada del grupo de Hugging Face en respuesta.
Mientras OpenAI modificaba y refinaba el rendimiento de Sora, la competencia de la empresa se comía el almuerzo. Firefly AI de Adobe, Gen 3 Alpha de Runway, Movie Gen de Meta y Kling de Kuaishou Technology (sin mencionar innumerables opciones de uso gratuito ) proliferaron en Internet el año pasado, y muchos ofrecieron clips de calidad superior y tiempos de inferencia más rápidos que lo que OpenAI lo había prometido repetidamente.
El martes, OpenAI presentó oficialmente la versión lista para producción de Sora y la lanzó a sus suscriptores Plus de $ 20 al mes y Pro de $ 200 al mes (risas). O, al menos, así lo hizo la empresa durante unas horas. Como señaló el comentarista de tecnología Ed Zitron en Bluesky el miércoles , “apenas unas horas, tal vez incluso menos, después de decir que Sora estaba fuera, OpenAI dejó de aceptar nuevos registros de cuentas sin un cronograma claro. OpenAI atrajo y cambió a todos los medios tecnológicos. No hay forma de que esta empresa pueda permitirse el lujo de tener su generador de vídeo disponible para el público”.
Para las personas que lograron obtener acceso, los videos que Sora logró generar fueron menos que impresionantes. Como señaló la personalidad de YouTube Marques Brownlee durante su video práctico con el modelo, se necesitaron varios minutos para generar un único clip de 20 segundos de duración con resolución de 1080p y tuvo dificultades significativas para generar las piernas de un sujeto y sus movimientos, con el frente y Las patas traseras intercambian posiciones de forma antinatural a lo largo del clip. Solo hay que mirar el video generado a continuación de una gimnasta intercambiando brazos, piernas y cabeza sobre la marcha mientras caen sobre una colchoneta para ver a qué se refería.
Aquí hay un vídeo de gimnasia generado por Sora.
– Pedro Labuza (@labuzmovies.bsky.social) 2024-12-11T17:35:23.989Z
El usuario de Bluesky, Peter Labuza, que publicó el vídeo de gimnasia, no se contuvo en sus críticas a la modelo y afirmó : "Lo siento, pero si creas un generador de texto a vídeo y le dices "haz correr a un gato". a través de un campo” y le das la imagen inicial, y el gato simplemente SE PARE, tu generador no funciona”.
El usuario de Bluesky, Chris Offner, sostuvo una opinión similar y señaló sarcásticamente que "Sora es un motor de física basado en datos" mientras compartía un clip absolutamente loco de un esquiador que desafía la mayoría, si no todas, las leyes de la física conocidas.
The Verge también probó el modelo, lamentando el hecho de que todavía no podía evitar inclusiones antiestéticas como "miembros adicionales u objetos distorsionados".
"Sora es un motor de física basado en datos."x.com/chrisoffner3…
– Chris Offner (@chrisoffner3d.bsky.social) 2024-12-10T12:42:53.674Z
No todo el mundo odiaba a Sora a primera vista, eso sí. El usuario de X, Nathan Shipley, mostró la función "remezcla" del modelo, que permite a los usuarios enmascarar un vídeo generado según los movimientos de los objetos en una muestra cargada. En este caso, hizo que la cabeza de una grúa generada se moviera de la misma manera que un par de tijeras que se grabó sosteniendo en video.
Prueba de Sora Remix: Tijeras a grúa
El mensaje fue "Primer plano de una curiosa grulla mirando alrededor de una hermosa escena natural junto a un estanque". La cabeza del pájaro aparece en el plano y luego sale”. pic.twitter.com/CvAkdkmFBQ
– Nathan Shipley (@CitizenPlain) 10 de diciembre de 2024
Aún no se sabe cuándo la compañía podrá reabrir de manera confiable los registros de cuentas para los usuarios interesados de Sora. También está por verse si OpenAI puede cortejar a Hollywood con Sora en su estado actual, como lo hizo recientemente Runway con Gen 3 y Lionsgate .
Una cosa sigue siendo segura: OpenAI, a pesar de su liderazgo inicial en el auge de la IA, está siendo superado rápidamente por el resto de la industria, y los lanzamientos mediocres de productos como el que acabamos de ver con Sora sólo dañarán aún más la reputación de la empresa.