收藏 分销(赏)

Sora技术报告解读.pdf

上传人:Stan****Shan 文档编号:1188980 上传时间:2024-04-18 格式:PDF 页数:17 大小:943.63KB
下载 相关 举报
Sora技术报告解读.pdf_第1页
第1页 / 共17页
Sora技术报告解读.pdf_第2页
第2页 / 共17页
Sora技术报告解读.pdf_第3页
第3页 / 共17页
Sora技术报告解读.pdf_第4页
第4页 / 共17页
Sora技术报告解读.pdf_第5页
第5页 / 共17页
点击查看更多>>
资源描述

1、Sora 官方技术报告解读【精炼版】Sora 是什么?Sora 是一个通用的视觉数据模型,能够生成持续时间、宽高比和分辨率多样的视频和图像,甚至能够生成长达一分钟的高清视频。Sora 的技术原理?Sora 借鉴了 DALLE 和 GPT 模型的先前研究成果,采用了 DALLE 3中的重新描述技术。Sora 是一个 Diffusion 模型,通过多个步骤逐渐去除噪声,将视频由随机像素转化为清晰的图像场景。同时,Sora 使用 transformer 架构,具有良好的扩展属性。Sora 的定位?Sora 定位世界模拟器,能够有效模拟物理和数字世界,包括其中的物体、动物和人类等各种元素。Sora 超

2、越了以往模型的限制,不仅能够处理更广泛类型的视觉内容,还能生成更长、更高质量的视频。【Sora 核心功能】视频生成、视频合成、图片生成1.视频生成:Sora 的核心功能,具备以下强大特点:生成长达 1 分钟视频:大多数工具通常只能生成几秒到十几秒的视频。而 Sora 则可以直接生成长达一分钟的视频,且这一分钟的视频并非单一场景,而是由多个镜头组成。3D 一致性:支持运动相机,生成类似航拍环绕的镜头。多镜头之间的角色一致性:可持续地模拟人物、动物和物体,即使它们被遮挡或离开画面。更优秀的语义理解:OpenAI 借鉴了在 DALLE 3 中介绍的重新标注技术,将其应用于视频。OpenAI 训练了一

3、个能生成高度描述性文本的模型,然后用这个模型训练集中的所有视频生成文本描述。与 DALLE 3 类似,OpenAI 也利用 GPT 将用户的简短提示转化为更长、更详细的说明,然后这些说明会被送到视频模型中。这样做使得 Sora 能够根据用户的提示生成高质量的视频,准确地反映用户的要求。生成不同尺寸的视频:包括宽屏的 1920 x1080p 视频、竖屏的 1080 x1920 视频,以及这两者之间的所有尺寸,这意味着 Sora 可以直接按照不同设备的原生宽高比创建内容。可先制作低分辨率视频原型:可以用 Sora 在较低分辨率下快速制作原型内容,然后再以全分辨率生成内容。可通过图片生成视频:基于图

4、片和提示生成视频。2.视频合成:包括扩展视频、视频到视频编辑(替换视频中的场景),以及无缝连接两个视频。扩展视频:可以向前或向后延伸时间。该功能类似给视频添加了时间旅行功能。视频到视频编辑技术:能够零次学习(zero-shot)地转换输入视频的风格和环境。例如:通过输入新的文本提示,让一个晴朗的海滩视频变成雪地里的场景,或者从现实风格变为卡通风格。视频连接:利用 Sora 在两个输入视频之间进行逐渐的插值,创造出完全不同主题和场景组成的视频之间的无缝过渡。3.图片生成:能够生成不同大小的图片分辨率最高可达 2048x2048。【Sora 涌现能力】大规模训练出现的涌现能力让 Sora 能够模拟

5、现实世界中人类、动物和环境的某些方面:1.与世界互动。Sora 有时可以模拟以简单方式影响世界状态的行为。例如:一个人吃汉堡时留下咬痕。2.模拟数字世界。Sora 能够模拟人工过程。例如:视频游戏。Sora 可以在模拟Minecraft世界及其动态的同时,用基本策略控制玩家。通过用提及“Minecraft”的字幕提示 Sora,可以零次学习地引发这些能力。【Sora 训练方法】1.借鉴了 ChatGPT 的训练思路:类似 ChatGPT,区别在于 Sora 使用的训练数据是视频和图片,而 ChatGPT 则使用文本数据。训练过程类似,首先对视觉数据(即视频和图片)进行压缩,然后将简化后的视频分

6、解成许多小块(视觉补丁),每个小块包含视频的部分画面和时间。这样的处理有助于使模型更容易学习和理解视频中的信息。2.用于视频生成的缩放转换器:Sora 作为一个扩散变换器,在语言模型、计算机视觉和图像生成等领域都显示出了惊人的扩展能力。就像变换器在不同领域都表现出色一样,Sora 也利用这种能力来学习如何从噪声中恢复出清晰的视频块。这使得 Sora在处理视频和图像时变得非常强大和灵活。【Sora 的局限性】局限性:难以准确模拟复杂场景的物理原理,并且可能无法理解因果关系。例如:玻璃碎裂、吃食物。在长时间样本中发展的不连贯性或物体的突然出现。未来发展方向:OpenAI 认为,Sora 目前所具有

7、的能力表明,继续扩大视频模型的规模是开发出能够有效模拟物理和数字世界及其中的物体、动物和人类的高能力模拟器的有希望的道路。【Sora 技术报告原文】官网原文链接:https:/ generationgeneration modelsmodels asas worldworld simulatorssimulators(视频生成模型作为世界模拟器)(视频生成模型作为世界模拟器)我们探索了在视频数据上进行大规模训练的生成模型。具体来说,我们训练了文本条件扩散模型(text-conditional diffusion models),这些模型同时处理不同时长、分辨率和宽高比的视频和图像。我们利用了一

8、个在视频和图像潜在代码的空间时间块(spacetime patches)上运作的变换器(transformer)架构。我们最大的模型 Sora 能够生成一分钟的高保真视频。我们的结果显示,扩展视频生成模型是构建物理世界通用模拟器的一个有前景的路径。技术报告重点本技术报告关注(1)我们将所有类型的视觉数据转化为统一表示的方法,以实现生成模型的大规模训练,以及(2)对 Sora 能力和局限性的定性评估。本报告不包含模型和实现细节。视频数据的生成建模许多先前的工作使用各种方法研究了视频数据的生成建模,包括循环网络(recurrent networks)、生成对抗网络(generative adver

9、sarial networks)、自回归变换器(autoregressive transformers)和扩散模型(diffusion models)。这些工作通常集中在视觉数据的狭窄类别、较短的视频或固定大小的视频上。Sora是一个视觉数据的通用模型它可以生成跨越不同时长、宽高比和分辨率的视频和图像,最长可达一分钟的高清视频。将视觉数据转化为块(patch)我们从大规模语言模型(LLM)中汲取灵感,这些模型通过在互联网规模的数据上训练获得通用能力。LLM 范式的成功部分得益于使用令牌(tokens),这些令牌优雅地统一了文本的不同模态代码、数学和各种自然语言。在这项工作中,我们考虑视觉数据的

10、生成模型如何继承这些好处。与 LLM 拥有文本令牌不同,Sora拥有视觉块(visual patches)。块(patches)已经被证明是视觉数据模型的有效表示。我们发现,块是训练多样化视频和图像生成模型的高度可扩展和有效表示。在较高的层次上,我们首先将视频压缩到较低维的潜在空间,将视频转换为补丁,然后将表示分解为时空补丁。视频压缩网络我们训练了一个网络来降低视觉数据的维度。这个网络以原始视频为输入,输出一个在时间和空间上都被压缩的潜在表示。Sora 在压缩的潜在空间上训练并生成视频。我们还训练了一个相应的解码器模型,将生成的潜在表示映射回像素空间。空间时间潜在块(spacetime pat

11、ches)给定一个压缩的输入视频,我们提取一系列空间时间块,这些块作为变换器令牌(transformer tokens)。这个方案也适用于图像,因为图像只是单帧的视频。我们的基于“块”的表示使得 Sora 能够训练和生成不同分辨率、时长和宽高比的视频和图像。在推理时,我们可以通过在适当大小的网格中排列随机初始化的块来控制生成视频的大小。扩展变换器用于视频生成Sora 是一个扩散模型(diffusion model),给定输入的噪声块(和像文本提示这样的条件信息),它被训练来预测原始的“干净”块。重要的是,Sora 还是一个diffusion transformer。变换器在包括语言建模、计算机

12、视觉和图像生成在内的多个领域展示了显著的扩展属性。在这项工作中,我们发现扩散变换器在视频模型上同样有效扩展。下面,我们展示了随着训练计算量的增加,视频样本质量的显著提高。在这项工作中,我们发现扩散变压器也可以有效地缩放为视频模型。下面,我们展示了训练过程中具有固定种子和输入的视频样本的比较。随着训练计算的增加,样本质量显着提高。(具体视频见官网)可变时长、分辨率、宽高比过去的图像和视频生成方法通常将视频调整大小、裁剪或修剪到标准尺寸例如,256x256 分辨率的 4 秒视频。我们发现,相反,在其原始尺寸上训练数据提供了几个好处。采样灵活性Sora 可以采样宽屏 1920 x1080p 视频、垂

13、直 1080 x1920 视频以及介于两者之间的所有内容。这让 Sora 能够直接为其原生宽高比的不同设备创建内容。它还让我们在生成全分辨率内容之前快速原型化较小尺寸的内容所有这些都使用同一个模型。改进的构图和布局我们实证发现,在原生宽高比上训练视频可以改善构图和取景。我们比较了 Sora与我们的模型的一个版本,后者将所有训练视频裁剪为正方形,这是训练生成模型时的常见做法。在正方形裁剪(左)训练的模型有时会产生主题只部分可见的视频。相比之下,Sora(右)的视频有更好的构图。(具体视频见官网)语言理解训练文本到视频生成系统需要大量带有对应文本标题的视频。我们应用了在DALLE 3 中引入的重新

14、标题技术(re-captioning technique)到视频上。我们首先训练一个高度描述性的标题生成模型,然后使用它为我们训练集中的所有视频生成文本标题。我们发现,基于高度描述性视频标题的训练提高了文本保真度以及视频的整体质量。使用图像和视频提示所有上述结果以及我们主页上的结果都显示了文本到视频的样本。但 Sora 也可以通过其他输入,如预先存在的图像或视频,来进行提示。这种能力使得 Sora 能够执行广泛的图像和视频编辑任务创建完美循环的视频、为静态图像添加动画、向前或向后扩展视频等。动画 DALLE 图像Sora 能够根据图像和提示生成视频。(具体视频见官网)扩展生成的视频Sora 还

15、能够扩展视频,无论是向前还是向后。以下是四个视频,它们都是从生成视频的一个片段开始向后扩展的。结果,每个视频都从不同的起点开始,但所有四个视频都导向同一个终点。我们可以使用这种方法向前和向后扩展视频,产生无缝的无限循环。(具体视频见官网)视频到视频编辑扩散模型已经实现了从文本提示编辑图像和视频的多种方法。下面我们应用了其中一种方法,SDEdit,到 Sora。这种技术使得 Sora 能够零样本(zero-shot)地转换输入视频的风格和环境。(具体视频见官网)连接视频我们还可以使用 Sora 逐渐插值两个输入视频,创建两个完全不同主题和场景构图视频之间的无缝过渡。在下面的示例中,中心的视频在左

16、右对应的视频之间插值。图像生成能力Sora 也能够生成图像。我们通过在空间网格中排列高斯噪声块,并具有一帧的时间范围来实现。模型可以生成不同大小的图像最高可达 2048x2048 分辨率。苹果树下一只小老虎的数字艺术,采用哑光绘画风格,细节华丽新兴的模拟(仿真)能力(Emerging simulation capabilities)我们发现,当视频模型在大规模训练时表现出许多有趣的新兴能力。这些能力使得 Sora 能够模拟物理世界中的一些人、动物和环境的某些方面。这些属性在没有对 3D、物体等的任何显式归纳偏差的情况下出现它们纯粹是规模(scale)现象。这些功能表明,视频模型的持续扩展是开发

17、物理和数字世界以及生活在其中的物体、动物和人的高性能模拟器的一条有前途的道路。讨论Sora 目前作为仿真器存在许多局限性。例如,它不能准确地仿真许多基本交互的物理,如玻璃破碎。其他交互,如吃食物,并不总是产生正确的物体状态变化。我们在报告中列举了模型的其他常见失败模式例如,长时间样本中发展出的不连贯性或物体的自发出现。我们相信,Sora 今天所拥有的能力表明,继续扩展视频模型是开发物理和数字世界以及其中生活的对象、动物和人的有能力模拟器的一个有前景的路径。玻璃没碎生成的脚印不连续,没有立即生成交互的脚印。【英文版】Video generation models as world simulat

18、orsWe explore large-scale training of generative models on video data.Specifically,we train text-conditional diffusion models jointly on videos and images ofvariable durations,resolutions and aspect ratios.We leverage a transformerarchitecture that operates on spacetime patches of video and image la

19、tentcodes.Our largest model,Sora,is capable of generating a minute of highfidelity video.Our results suggest that scaling video generation models is apromising path towards building general purpose simulators of the physicalworld.This technical report focuses on(1)our method for turning visual data

20、of alltypesintoaunifiedrepresentationthatenableslarge-scaletrainingofgenerative models,and(2)qualitative evaluation of Soras capabilities andlimitations.Model and implementation details are not included in this report.Much prior work has studied generative modeling of video data using a varietyof me

21、thods,including recurrent networks,generative adversarial networks,autoregressive transformers,and diffusion models.These works often focus ona narrow category of visual data,on shorter videos,or on videos of a fixed size.Sora is a generalist model of visual datait can generate videos and imagesspan

22、ning diverse durations,aspect ratios and resolutions,up to a full minute ofhigh definition video.Turning visual data into patchesWe take inspiration from large language models which acquire generalistcapabilities by training on internet-scale data.The success of the LLM paradigmis enabled in part by

23、 the use of tokens that elegantly unify diverse modalities oftextcode,math and various natural languages.In this work,we consider howgenerative models of visual data can inherit such benefits.Whereas LLMs havetext tokens,Sora has visual patches.Patches have previously been shown tobe an effective re

24、presentation for models of visual data.We find that patchesare a highly-scalable and effective representation for training generativemodels on diverse types of videos and images.At a high level,we turn videos into patches by first compressing videos into alower-dimensionallatentspace,andsubsequently

25、decomposingtherepresentation into spacetime patches.Video compression networkWe train a network that reduces the dimensionality of visual data.This networktakes raw video as input and outputs a latent representation that is compressedboth temporally and spatially.Sora is trained on and subsequently

26、generatesvideos within this compressed latent space.We also train a correspondingdecoder model that maps generated latents back to pixel space.Spacetime latent patchesGiven a compressed input video,we extract a sequence of spacetime patcheswhich act as transformer tokens.This scheme works for images

27、 too sinceimages are just videos with a single frame.Our patch-based representationenables Sora to train on videos and images of variable resolutions,durationsand aspect ratios.At inference time,we can control the size of generatedvideos by arranging randomly-initialized patches in an appropriately-

28、sized grid.Scaling transformers for video generationSoraisadiffusionmodel;giveninputnoisypatches(andconditioninginformation like text prompts),its trained to predict the original“clean”patches.Importantly,Sora is a diffusion transformer.Transformers have demonstratedremarkable scaling properties acr

29、oss a variety of domains,including languagemodeling,computer vision,and image generation.In this work,we find that diffusion transformers scale effectively as videomodels as well.Below,we show a comparison of video samples with fixedseeds and inputs as training progresses.Sample quality improves mar

30、kedly astraining compute increases.Variable durations,resolutions,aspect ratiosPast approaches to image and video generation typically resize,crop or trimvideos to a standard sizee.g.,4 second videos at 256x256 resolution.We findthat instead training on data at its native size provides several benef

31、its.Sampling flexibilitySora can sample widescreen 1920 x1080p videos,vertical 1080 x1920 videosand everything inbetween.This lets Sora create content for different devicesdirectly at their native aspect ratios.It also lets us quickly prototype content atlower sizes before generating at full resolut

32、ionall with the same model.Improved framing and compositionWe empirically find that training on videos at their native aspect ratios improvescomposition and framing.We compare Sora against a version of our model thatcrops all training videos to be square,which is common practice when traininggenerat

33、ive models.The model trained on square crops(left)sometimesgenerates videos where the subject is only partially in view.In comparison,videos from Sora(right)have improved framing.Language understandingTraining text-to-video generation systems requires a large amount of videoswithcorrespondingtextcap

34、tions.Weapplythere-captioningtechniqueintroduced in DALLE 330 to videos.We first train a highly descriptive captionermodel and then use it to produce text captions for all videos in our training set.We find that training on highly descriptive video captions improves text fidelityas well as the overa

35、ll quality of videos.Similar to DALLE 3,we also leverage GPT to turn short user prompts intolonger detailed captions that are sent to the video model.This enables Sora togenerate high quality videos that accurately follow user prompts.Prompting with images and videosAll of the results above and in o

36、ur landing page show text-to-video samples.ButSora can also be prompted with other inputs,such as pre-existing images orvideo.This capability enables Sora to perform a wide range of image and videoeditingtaskscreatingperfectlyloopingvideo,animatingstaticimages,extending videos forwards or backwards

37、in time,etc.Animating DALLE imagesSora is capable of generating videos provided an image and prompt as input.Below we show example videos generated based on DALLE 2 and DALLE 3images.Extending generated videosSora is also capable of extending videos,either forward or backward in time.Below are four

38、videos that were all extended backward in time starting from asegment of a generated video.As a result,each of the four videos startsdifferent from the others,yet all four videos lead to the same ending.We can use this method to extend a video both forward and backward toproduce a seamless infinite

39、loop.Video-to-video editingDiffusion models have enabled a plethora of methods for editing images andvideos from text prompts.Below we apply one of these methods,SDEdit to Sora.This technique enables Sora to transform the styles and environments of inputvideos zero-shot.Connecting videosWe can also

40、use Sora to gradually interpolate between two input videos,creating seamless transitions between videos with entirely different subjectsand scene compositions.In the examples below,the videos in the centerinterpolate between the corresponding videos on the left and right.Image generation capabilitie

41、sSora is also capable of generating images.We do this by arranging patches ofGaussian noise in a spatial grid with a temporal extent of one frame.The modelcan generate images of variable sizesup to 2048x2048 resolution.Emerging simulation capabilitiesWe find that video models exhibit a number of int

42、eresting emergent capabilitieswhen trained at scale.These capabilities enable Sora to simulate some aspectsof people,animals and environments from the physical world.These propertiesemerge without any explicit inductive biases for 3D,objects,etc.they arepurely phenomena of scale.3D consistency.Sora

43、can generate videos with dynamic camera motion.As thecamera shifts and rotates,people and scene elements move consistentlythrough three-dimensional space.Long-range coherence and object permanence.A significant challenge forvideo generation systems has been maintaining temporal consistency whensampl

44、ing long videos.We find that Sora is often,though not always,able toeffectively model both short-and long-range dependencies.For example,ourmodel can persist people,animals and objects even when they are occluded orleave the frame.Likewise,it can generate multiple shots of the same characterin a sin

45、gle sample,maintaining their appearance throughout the video.Interacting with the world.Sora can sometimes simulate actions that affectthe state of the world in simple ways.For example,a painter can leave newstrokes along a canvas that persist over time,or a man can eat a burger andleave bite marks.

46、Simulatingdigitalworlds.Soraisalsoabletosimulateartificialprocessesone example is video games.Sora can simultaneously control theplayer in Minecraft with a basic policy while also rendering the world and itsdynamics in high fidelity.These capabilities can be elicited zero-shot byprompting Sora with

47、captions mentioning“Minecraft.”These capabilities suggest that continuedscaling of video modelsis apromising path towards the development of highly-capable simulators of thephysical and digital world,and the objects,animals and people that live withinthem.DiscussionSora currently exhibits numerous l

48、imitations as a simulator.For example,itdoes not accurately model the physics of many basic interactions,like glassshattering.Other interactions,like eating food,do not always yield correctchanges in object state.We enumerate other common failure modes of themodelsuch as incoherencies that develop i

49、n long duration samples orspontaneous appearances of objectsin our landing page.We believe the capabilities Sora has today demonstrate that continued scalingof video models is a promising path towards the development of capablesimulators of the physical and digital world,and the objects,animals and peoplethat live within them.GH 产业传媒海外|基于公开资料加工

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 研究报告 > 其他

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-2024(领证中)  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服