Los nuevos videos de OpenAI creados por IA están dejando boquiabiertos a la gente

febrero 16, 2024 Aranzulla de Los Pobres

Una imagen de IA que muestra a dos mamuts caminando sobre la nieve, con montañas y un bosque al fondo. — Abierto AI

La última incursión de OpenAI en el ámbito de la IA podría ser la más impresionante hasta la fecha. Apodado "Sora", este nuevo modelo de IA de texto a video acaba de abrir sus puertas a un número limitado de usuarios que podrán probarlo. La compañía lo lanzó mostrando varios videos creados íntegramente por IA y los resultados finales son sorprendentemente realistas.

OpenAI presenta a Sora diciendo que puede crear escenas realistas basadas en indicaciones de texto, y los videos compartidos en su sitio web sirven para demostrarlo. Las indicaciones son descriptivas, pero breves; Personalmente he usado indicaciones más largas simplemente interactuando con ChatGPT . Por ejemplo, para generar el vídeo de los mamuts lanudos que se muestran arriba, Sora necesitó un mensaje de 67 palabras que describiera los animales, los alrededores y la ubicación de la cámara.

Presentamos Sora, nuestro modelo de texto a video.
Sora puede crear vídeos de hasta 60 segundos con escenas muy detalladas, movimientos de cámara complejos y múltiples personajes con emociones vibrantes. https://t.co/7j2JN27M3W
Mensaje: “Hermoso, nevado… pic.twitter.com/ruTEWn87vf
– OpenAI (@OpenAI) 15 de febrero de 2024

"Sora puede generar vídeos de hasta un minuto de duración manteniendo la calidad visual y el cumplimiento de las indicaciones del usuario", dijo OpenAI en su anuncio . La IA puede generar escenas complejas llenas de muchos personajes, escenarios y movimientos precisos. Con ese fin, OpenAI dice que Sora predice y lee entre líneas según sea necesario.

"El modelo comprende no sólo lo que el usuario ha pedido en el mensaje, sino también cómo existen esas cosas en el mundo físico", dijo OpenAI. El modelo no sólo aborda personajes, ropa o entornos, sino que también crea "personajes convincentes que expresan emociones vibrantes".

Sora también puede llenar los espacios en un video existente o hacerlo más largo, así como generar un video basado en una imagen, por lo que no se trata solo de mensajes de texto.

Si bien los videos se ven bien como capturas de pantalla, son casi alucinantes en movimiento. OpenAI presentó una amplia gama de videos para mostrar la nueva tecnología, incluidas las calles de Tokio al estilo Cyberpunk y "imágenes históricas" de California durante la fiebre del oro. También hay más, incluido un primer plano extremo de un ojo humano. Las indicaciones cubren desde dibujos animados hasta fotografías de vida silvestre.

Sora todavía cometió algunos errores. Una mirada más cercana revela que, por ejemplo, algunas figuras entre la multitud no tienen cabeza o se mueven de manera extraña. El movimiento extraño se destacó a primera vista en algunas muestras, pero fue necesario verlos varias veces para detectar la rareza general.

Puede que pase un tiempo antes de que OpenAI abra Sora al público en general. En este momento, el modelo será probado por miembros del equipo rojo que evaluarán los riesgos potenciales. Algunos creadores también podrán comenzar a probarlo ahora, mientras aún se encuentra en las primeras etapas de desarrollo.

La IA todavía es imperfecta, así que esperaba algo bastante complicado. Ya sean las bajas expectativas o las capacidades de Sora, me quedo impresionado, pero también un poco preocupado. Ya vivimos en un mundo donde es difícil distinguir una falsificación de algo real, y ahora no son sólo las imágenes las que están en peligro: los videos también. Sin embargo, Sora no es el primer modelo de conversión de texto a vídeo que hemos visto, como Pika .

Otros también están levantando la bandera, como el popular YouTuber tecnológico Marques Brownlee , quien tuiteó que "si esto no te preocupa al menos un poquito, nada lo hará" en respuesta a los videos de Sora.

Cada uno de estos videos está generado por IA, y si esto no te preocupa al menos un poquito, nada lo hará.
El modelo más nuevo: https://t.co/zkDWU8Be9S
(¿Recuerdas a Will Smith comiendo espaguetis? Tengo tantas preguntas) pic.twitter.com/TQ44wvNlQw
– Marques Brownlee (@MKBHD) 15 de febrero de 2024

Si Sora de OpenAI es tan bueno ahora, es difícil imaginar de qué será capaz después de unos años de mayor desarrollo y pruebas. Este es el tipo de tecnología que tiene el potencial de desplazar muchos puestos de trabajo, pero, con suerte, al igual que ChatGPT, coexistirá con profesionales humanos.