OpenAI presenta a Sora, una IA que crea videos a base de texto

La carrera por liderar el desarrollo de la inteligencia artificial se está poniendo más que interesante. Pocas horas después de que Google anunciara Gemini 1.5, una nueva versión de su modelo multimodal destinada a competir en mejores condiciones con GPT-4, OpenAI ha revelado su primer modelo de generación de vídeos.

Estamos hablando de Sora, una herramienta que en su actual versión experimental permite generar vídeos de hasta 60 segundos. La compañía liderada por Sam Altman asegura que el modelo es capaz de generar escenas realistas, adhiriéndose a las indicaciones de los usuarios. Todo esto, manteniendo la calidad de los fotogramas.

La IA generativa de OpenAI ahora también hace vídeos
Si nos detenemos un instante a pensar en cómo la IA generativa está avanzando, podríamos concluir en que lo está haciendo a velocidad de vértigo. En 2021 nos sorprendíamos con la primera versión de DALL·E y “habilidad” para crear un aguacate-silla. Y en este momento vivimos en un presente donde los generadores de vídeo son una realidad.

Sora funciona esencialmente con la misma mecánica que los generadores de texto a imagen. Utilizamos un prompt (indicación textual) para describir lo que queremos que el modelo genere. Aquí, ciertamente, entra en juego la habilidad del usuario para generar prompt precisos para el modelo en cuestión. Veamos el prompt del vídeo superior generado por Sora.

Introducing Sora, our text-to-video model.

Sora can create videos of up to 60 seconds featuring highly detailed scenes, complex camera motion, and multiple characters with vibrant emotions. https://t.co/7j2JN27M3W

Prompt: “Beautiful, snowy… pic.twitter.com/ruTEWn87vf
— OpenAI (@OpenAI) February 15, 2024

Como podemos ver, se ha conseguido una sorprendente escena de vídeo, incluso con cambios de plano, pero gracias a indicaciones muy precisas. Se describe minuciosamente la apariencia de la mujer que camina en las calles de Tokio, y se brindan detalles sobre todo lo que le rodea. Desde las luces de neón brillantes hasta la humedad reflectante del suelo.

El modelo, explican, es capaz de generar escenas complejas con múltiples personajes. Pero hay más, también se puede especificar el tipo de movimiento del sujeto y detalles precisos del entorno. “El modelo entiende no solo lo que el usuario ha pedido en el mensaje, sino también cómo existen esas cosas en el mundo físico”, dice la compañía.

OpenAI añade que todos los vídeos publicados en la publicación de blog del anuncio de este nuevo modelo no han sido editados. Si tenemos en cuenta lo que la compañía asegura, estamos realmente ante una herramienta prometedora, aunque tendremos que probarla directamente para sacar conclusiones sobre sus capacidades.

Prompt: “A movie trailer featuring the adventures of the 30 year old space man wearing a red wool knitted motorcycle helmet, blue sky, salt desert, cinematic style, shot on 35mm film, vivid colors.” pic.twitter.com/0JzpwPUGPB
— OpenAI (@OpenAI) February 15, 2024

La compañía sí advierte que, como cualquier modelo de IA, Sora también tiene sus propias limitaciones e inconvenientes. Dice que “puede tener dificultades para simular con precisión la física de una escena compleja y puede no comprender instancias específicas de causa y efecto”. Ahora bien, tendremos que esperar para poder utilizar este nuevo modelo.

En este momento se encuentra disponible únicamente para los investigadores de OpenAI, es decir, su funcionamiento está limitado a pruebas de laboratorio. No obstante, señalan que estará disponible en el catálogo de productos de OpenAI, pero no antes de que se tomen varias medidas para garantizar la seguridad de los usuarios.

Imágenes: OpenAI

Prompt: “A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. she wears a black leather jacket, a long red dress, and black boots, and carries a black purse. she wears sunglasses and red lipstick. she walks confidently and casually.… pic.twitter.com/cjIdgYFaWq
— OpenAI (@OpenAI) February 15, 2024

Tecnología

Hace: 2 años, 1 mes | Por: