Viernes, 16 de febrero de 2024 16:11

Bienvenido futuro: un programa de IA crea videos con sólo texto o imágenes

Se trata de Sora, la nueva creación de la empresa estadounidense OpenAI. Puede generar vídeos e imágenes de diversas duraciones, relaciones de aspecto y resoluciones, hasta un minuto completo.

OpenAI ha presentado Sora, su nuevo modelo impulsado por Inteligencia Artificial (IA) generativa capaz de crear escenas realistas de vídeo de hasta 60 segundos a partir de instrucciones de texto, con un resultado detallado, un movimiento de cámara complejo y múltiples personajes con emociones.

La tecnológica estadounidense pretende continuar avanzando en las capacidades de la IA, en concreto, entrenando modelos que ayuden a las personas a resolver problemas que requieran interacción con el mundo real. Para ello, ha estado trabajando en formas de enseñar a la IA a comprender y simular el mundo físico en movimiento.

Como resultado Sora, su nuevo modelo de IA de texto a vídeo, con el que permite la creación de vídeos realistas de hasta un minuto de duración a partir de las indicaciones de texto que aporte el usuario.

Así, tal y como ha detallado la compañía en su web y ha compartido a través de una publicación en X, Sora permite la creación de vídeos con escenas "altamente detalladas", así como con un movimiento de cámara "complejo" y la integración de múltiples personajes que, incluso, muestran emociones.

Para la creación de estos vídeos, los usuarios tan solo deberán escribir una serie de indicaciones detallando qué características tiene que incluir la escena, como los personajes y las acciones que llevarán a cabo, el entorno, el clima, y los movimientos de cámara que se deban recrear.

Cómo funciona

En cuanto a su funcionamiento, Sora genera un vídeo a partir de otros vídeos que, según OpenAI, parecen "ruido estático". De esta manera, el modelo lo transforma gradualmente eliminando el ruido en muchos pasos, hasta llegar a la visualización de las imágenes realistas.

Asimismo, al igual que los modelos GPT, utiliza una "arquitectura de transformador" con la que, según la compañía, se desbloquea un rendimiento de escalado superior. Concretamente, las imágenes del vídeo se representan como "colecciones de unidades de datos más pequeñas", a las que se refiere como parches. Así, cada parche es el equivalente a un token en GPT.

Sora es un revolucionario modelo de generación de imágenes en movimiento que puede entender cómo los objetos existen en el mundo físico, así como interpretar con precisión el entorno y generar personajes.

La nueva herramienta también puede generar videos a partir de imágenes fijas, así como rellenar los fotogramas que faltan en un clip existente o ampliarlo. Las demostraciones generadas por Sora incluidas en la web de OpenAI y republicadas en las redes sociales sorprendieron a los usuarios por su hiperrealismo. Sin embargo, la propia empresa advirtió que todavía su IA puede tener problemas para simular con precisión la física de una escena muy compleja.

Según publicó la firma, el sorprendente modelo de IA puede entender cómo los objetos existen en el mundo físico, así como interpretar con precisión el entorno y generar personajes convincentes que expresen emociones.

Esta nota habla de:

Últimas noticias de Inteligencia artificial

Política

Ulpiano Suarez participó del Encuentro de Intendentes CIIAR junto a otros líderes municipales

Ulpiano Suarez en el Encuentro de Intendentes CIIAR.

Es trata de un encuentro que tuvo lugar en Escobar, donde participaron jefes comunales de otras provincias

En el secundario

Mendoza incluirá a la inteligencia artificial en su sistema educativo

Con el fin de mejorar la calidad del sistema educativo, docentes de Mendoza comienzan a formarse para implementar esta potente herramienta educativa dentro de las aulas y acompañar las trayectorias escolares.