📖
推荐：SORA 超详细解读

用户2838

2024年2月22日修改

🌐

厦门大学平潭研究院研究员杨知铮老师 S最强文生视频模型 SORA 超详细解读：https://zhuanlan.zhihu.com/p/682579303

https://www.yuque.com/shekonghuanzheyanglaoshi/uzl5zl/gfrt813iss1b8h3u?singleDoc#

2月16日一早openAI平地一声雷，悄无声息的发布了第一个Text to Video大模型—SORA。从演示看，效果还是相当不错的。 Sora 的强大之处在于其能够根据文本描述，生成长达60秒的视频，其中包含精细复杂的场景、生动的角色表情以及复杂的镜头运动。 这无异于给正在处于春节长假的尾巴国内AI圈丢下了一颗重磅炸弹。这篇文章，我将快速的带大家解读一下openAI在官方release的技术报告，希望本文可以让大家能从一头雾水中，寻找和思考一些未来文生视频和文生图领域的技术发展趋势。另外本文不会逐字逐句的去翻译技术报告原文，对原文感兴趣的读者，可以在以下链接中自行食用。​

技术报告原文链接: https://openai.com/research/video-generation-models-as-world-simulators

全部演示视频的完整的内容可以参考本文的语雀文档链接，《最强文生视频模型 SORA 超详细解读》：https://www.yuque.com/shekonghuanzheyanglaoshi/uzl5zl/gfrt813iss1b8h3u?singleDoc#

认识SORA

长期关注文生视频领域的读者，肯定非常清楚，在这一领域长期以来openAI并不是最受关注的哪一个。2023年国外最火的三个公司应该是runway，PIKA和Pixverse。作为文生视频领域的后期之秀，openAI这次发布的SORA有哪些特别之处？让我们先从宏观视角来一探究竟。​

Sora能够创造出包含多个角色、特定动作类型以及与主题和背景相符的详细场景。这款模型不仅能理解用户的指令，还能洞察这些元素在现实世界中的表现。 Sora对语言有着深刻的理解，能够精准地捕捉到用户的需求，并创造出充满生命力、情感丰富的角色。此外，Sora还能在同一视频中创造出多个画面，同时保持角色和视觉风格的一致性。 当然，Sora还不是完美的。比如在模拟复杂场景的物理效应，以及理解某些特定因果关系时，它可能会遇到难题。举个例子，视频中的人物可能会咬一口饼干，但饼干上可能看不到明显的咬痕。 在处理空间细节，比如分辨左右时，Sora也可能会出现混淆；在精确描述一段时间内发生的事件，如特定的摄影机移动轨迹时，也可能显得力不从心。​

首先，先来看看SORA生成视频的效果究竟如何。

提示词: 一位时髦的女士穿行在东京的街头，街道充满了温暖的霓虹灯光和动感的城市标志。她穿着一件黑色皮夹克，一条长红裙和黑色靴子，手拿一个黑色手提包。她戴着太阳镜和红色口红。她走路既自信又随意。街道潮湿且能反射，创造出彩色灯光的镜面效果。许多行人来来往往。​

openAI在技术报告中提到SORA是在大规模的视频和图像数据上进行联合训练得到的生成模型。具体来说，联合训练了在不同持续时间、分辨率和纵横比的视频和图像上的文本条件扩散模型。openAI利用了一个在视频和图像潜空间上操作的transformer架构。生成一分钟的高清视频。​

common.docs_name - LarkCCM_Docs_Menu_Image

这次openAI训练的Sora 所建立的是一种通用的视觉模型方法，而不再是细分的方式（之前的研究，图像与视频模型是不同的），因此既可生成视频又可生成图像，并且不止如此。当GPT学会语言的时候就学会了语言所传递的一切，同理，Sora也可以学会视觉所传递的一切。​

Spacetime Patches 包含时空信息的图像块

在开始训练模型之前，首先需要解决的是训练数据的结构化，格式统一化以及数据清洗，标注等等一系列数据预处理工作。显然，openAI在做这项工作的时候，首先考虑的很可能是在训练DALLE-3的那些海量的高质量的已经经过预处理的训练数据。那么接下来需要解决的就是如何将不同类型的数据(例如文本、视频、图片等)转化为Transformer架构下的向量，从而进行后续的训练。​

Sora设计思路其实和LLM一致，都是先将所有输入数据统一化（LLM是文本/代码等，Sora是各种类型的视觉数据），然后训练模型用于预测下一个“词”（LLM是tokens，Sora是patches），并且使用原始数据而非修剪后的数据（不同分辨率、时长和高宽比）。学会预测就学会了背后的东西，LLM是知识，Sora是物理世界。​

那么具体是如何实现的呢？第一步，就是要将原始视频数据，转化为低维度潜空间特征。 在这里sora定义了视频训练和推理的基本单元是Patches，这是在Vision Transformer (ViT) 这篇论文中首次被提出的概念，视频数据和图片数据进行统一是完全没有问题的，本来视频拆分成每一帧就是一张图片。视频的本质就是按照一定序列组织起来的图片。​