open-AI text to video sora.



el inprecionante sistema de openAI, sora su nombre que biene de japon que significa cielo.Crear vídeo a partir de texto es una tarea fascinante.Modelos de generación de vídeo como simuladores del mundo. Explora el entrenamiento a gran escala de modelos generativos sobre datos de video. En concreto, entrenados como modelos de difusión condicional de texto de forma conjunta sobre vídeos e imágenes de duración, resolución y relación de aspecto variables. Aprovecha una arquitectura transformadora que opera en parches espacio-temporales de códigos latentes de imágenes y videos. el modelo más grande, Sora, es capaz de generar un minuto de vídeo de alta fidelidad. los resultados sugieren que escalar modelos de generación de video es un camino prometedor hacia la construcción de simuladores de propósito general del mundo físico.
como funciona sora.comprender y simular el mundo físico en movimiento, con el objetivo de entrenar modelos que ayuden a las personas a resolver problemas que requieren interacción con el mundo real.
En este trabajo, encontramos que los transformadores de difusión también se escalan efectivamente como modelos de video.
A continuación, mostramos una comparación de ejemplos de videos con semillas e insumos fijos a medida que avanza la capacitación.
calidad de la muestra mejora notablemente a medida que aumenta el cálculo de entrenamiento.
que puede hacer sora!? Sora puede muestrear videos de pantalla ancha de 1920x1080p, videos verticales de 1080×1920 y todo lo demás.
Esto permite a Sora crear contenido para diferentes dispositivos directamente en sus relaciones de aspecto nativas.
También nos permite crear rápidamente prototipos de contenido en tamaños más pequeños antes de generarlo a resolución completa, todo con el mismo modelo.
Comprensión del lenguaje Entrenar sistemas de generación de texto a video requiere una gran cantidad de videos con los subtítulos de texto correspondientes. se Aplica la técnica de resubtitulado introducida en DALL· E a vídeos. Primero entrena un modelo de subtítulos altamente descriptivo y luego se usa para producir subtítulos de texto para todos los videos en conjunto de entrenamiento.
se Descubrio que la formación sobre subtítulos de vídeo altamente descriptivos mejora la fidelidad del texto, así como la calidad general de los vídeos. Al igual que en DALL· E 3, también se aprovecho GPT para convertir breves mensajes de usuario en subtítulos más largos y detallados que se envían al modelo de vídeo. Esto permite a Sora generar vídeos de alta calidad que siguen con precisión las indicaciones del usuario.
Pero a Sora también se le pueden solicitar otras entradas, como imágenes o vídeos preexistentes. Esta capacidad permite a Sora realizar una amplia gama de tareas de edición de imágenes y videos: crear videos en bucle perfecto, animar imágenes estáticas, extender videos hacia adelante o hacia atrás en el tiempo, etc. una imagen creada por DALL· E, de tentrada de imagen a video.Un perro Shiba Inu con boina y jersey de cuello alto negro.
Ilustración de monstruos en estilo de diseño plano de una familia diversa de monstruos.
El grupo incluye un monstruo marrón peludo, un monstruo negro elegante con antenas, un monstruo verde manchado y un pequeño monstruo de lunares, todos interactuando en un ambiente lúdico.
Una imagen de una nube realista que deletrea” SORA”.

En una sala histórica y ornamentada, un enorme maremoto alcanza su punto máximo y comienza a estrellarse. Dos surfistas, aprovechando el momento, navegan hábilmente por la cara de la ola.
Ampliar vídeos generados Sora también es capaz de extender vídeos, ya sea hacia adelante o hacia atrás en el tiempo.Podemos usar este método para extender un video hacia adelante y hacia atrás para producir un bucle infinito sin interrupciones.
Edición de video a video Los modelos de difusión han permitido una gran cantidad de métodos para editar imágenes y videos a partir de mensajes de texto. A continuación se aplica uno de estos métodos, a Sora. Esta técnica permite a Sora transformar los estilos y entornos de los vídeos de entrada de forma cero.
Conectando vídeos También podemos usar Sora para interpolar gradualmente entre dos videos de entrada, creando transiciones perfectas entre videos con temas y composiciones de escenas completamente diferentes. En los ejemplos siguientes, los vídeos que mostrare se interpolan entre los vídeos correspondientes.
el resultado de los dos videos interpolados este es el resultado. Capacidades de simulación emergentes los modelos de vídeo exhiben una serie de capacidades emergentes. permiten a Sora simular algunos aspectos de personas, animales y entornos del mundo físico. Estas propiedades surgen sin ningún sesgo inductivo explícito para el 3D. Consistencia 3D. Sora puede generar videos con movimiento dinámico de la cámara. A medida que la cámara se desplaza y gira, las personas y los elementos de la escena se mueven consistentemente a través del espacio tridimensional

source

Similar Posts