分享
一文看懂Sora技术推演
输入“/”快速插入内容
📖
一文看懂Sora技术推演
飞书用户2838
2024年2月21日修改
🌐
阿里CV高级算法专家周文猛老师的一文看Sora技术推演:
https://mp.weixin.qq.com/s/3RnrO7fSMizEl3mN3SXG5w
https://openai.com/sora
工作一出,引起社会各界广泛关注。中美AI的差距进一步扩大,中美人才培养体系的差距等等言论,甚嚣尘上。
其实文生视频领域,华人学者和产业界的参与度还是非常高的,包括魔搭社区的VGen (
https://modelscope.cn/models/iic/i2vgen-xl/summary
)
系列, HeyGen在数字人场景也得到了大家的认可,清华的朱军老师团队在diffusion transformmers结合场景也深耕多年有很多的产出,例如U-Vit (
https://github.com/baofff/U-ViT
)
工作。 那么Sora到底是谁做的,怎么做的,本篇文章将从Sora的technical report进行详细分析,给出大致的技术猜测。 同时我们也相信国内同行在有着深厚积累的情况下,也能百家争鸣,紧追不舍。
Sora作者
Sora的核心作者是Bill Peebles(
https://www.wpeebles.com/
)
和Tim brooks(
https://www.timothybrooks.com/about/
)
,Bill Peebles 在伯克利人工智能研究所完成了博士学位,导师是Alyosha Efros。在此之前,他在麻省理工学院攻读本科,指导老师是Antonio Torralba。他曾在FAIR、Adobe研究院和NVIDIA实习。
Tim brooks 在伯克利人工智能研究所获得了博士学位,导师是Alyosha Efros,他是InstructPix2Pix的作者。在此之前他曾在谷歌工作,参与Pixel手机相机的研发,在NVIDIA从事视频生成模型的研究。 Sora团队的Leader是Aditya Ramesh(
http://adityaramesh.com/
)
, 他是DALLE、DALLE2、DALLE3的主要作者。
模块拆解
Overview
Visusal encoder
输入的视频可以看成是NxHxW的若干帧图像, 通过Encoder被切分成spatial tempral patch,这些patch最终会被flatten成一维向量,送入diffusion model。
这里的Encoder根据openai的资料来看可能是一个Video transformer,把输入的视频划分成若干个tuplet,每个tuplet会变成一个token,经过spatial temperal attention进行空间和时间建模获得有效的视频表征token,即上面灰色block部分。
Arnab, Anurag, et al. "Vivit: A video vision transformer." Proceedings of the IEEE/CVF international conference on computer vision. 2021
常见的encoder有如下几种范式,其中第一种是时空联合建模,通过spatial-tempral attention直接建模,这种方式在大数据量情况下效果最好,但是对于小的数据集,factorised方法将时间和空间解耦建模,相当于减少模型参数,会更容易训练和效果更好。基于openai大力出奇迹的惯性,我们推测他们采用了大量的数据,采用了时空联合建模的方式,进行了video encoder的训练。