OpenAI, la compañía responsable de crear ChatGPT, anunció el lanzamiento de Sora, su más reciente modelo de inteligencia artificial el cual permitirá crear escenas “realistas e imaginativas a partir de instrucciones de texto”.
Según explican en su sitio web, el nuevo modelo podrá crear videos de un minuto “manteniendo la calidad visual y la adhesión” a las instrucciones que le entreguen los usuarios. La IA podrá crear escenas complejas basadas en cómo se verían en la vida real.
En ese sentido, la IA podrá recrear escenas del mundo real con “con múltiples personajes, tipos específicos de movimiento y detalles precisos del sujeto y el fondo”, dependiendo del pedido del usuario.
¿Qué es Sora, la nueva inteligencia artificial de OpenAI?
Según explicó la compañía, Sora es un modelo de difusión, el cual genera un video a partir de uno que parece un ruido estático y lo transforma en el pedido de manera gradual, eliminando el ruido a lo largo de diversos pasos.
Esto le permite generar vídeos enteros o ampliar los vídeos que genere para hacerlos más largos, tomar una imagen fija y generar videos a partir de ellas e incluso tomar un vídeo existente y ampliarlo o rellenar los fotogramas que falten.
De acuerdo con el comunicado de OpenAI, el modelo puede interpretar el lenguaje de forma eficiente, lo que le permite crear los pedidos de manera detallada con personajes que pueden mostrar emociones. Además, este puede generar diversas tomas que mantienen los mismos personajes y estilos.
Sin embargo, el comunicado afirma que Sora tiene diversos errores, ya que aún tiene dificultades para poder simular con precisión la física de una escena compleja, al igual que le dificulta entender casos concretos de causa y efecto.
“Por ejemplo, una persona puede dar un mordisco a una galleta, pero después la galleta puede que no tenga la marca del mordisco”, explican.
Mecanismos para evitar desinformación
OpenAI anunció que integrará un sistema para evitar algún tipo de uso malicioso del modelo. En ese sentido, afirmaron que crearán herramientas para detectar contenidos engañosos, como, por ejemplo, un clasificador de detección que permita saber cuándo un vídeo ha sido generado por Sora.
Además, existen planes para programar en Sora los metadatos de tipo C2PA en el futuro en caso de que integren este modelo en algún producto de OpenAI. También utilizarán los mecanismos de seguridad implementados en otros programas como DALL-E 3.
“Por ejemplo, nuestro clasificador de texto comprobará y rechazará las entradas de texto que infrinjan nuestras políticas de uso, como las que soliciten violencia extrema, contenido sexual, imágenes que inciten al odio, imágenes de famosos o la propiedad intelectual de terceros”, explicaron.