分享
Sora技术详解及影响分析
输入“/”快速插入内容
📖
Sora技术详解及影响分析
用户2838
用户2838
用户5694
用户5694
2024年2月29日修改
🌐
Datawhale HuggingSD开源教程负责人李孝杰 Sora技术详解及影响分析:
https://zhuanlan.zhihu.com/p/683004185
从openai sora
([1])
的技术报告首段可以看出sora的野心远远不止视频生成,他们的目标是通过视频数据来学习一个世界模型或者世界模拟器,这才是真正令人兴奋和激动的部分。
1-数据工程
1-1 采用patches统一训练数据格式
1-2 在原始图片尺寸上训练
1-3 使用re-captioning获得text-videos对
2-网络结构
2-1 DiT
([4])
简单来说就是tansformer+ddpm,核心就是用tansformer的结构替换掉stable diffusion中的unet结构,来预测噪声实现去噪。这个替换可以带来以下优势。
•
随着数据规模或者训练时间的增强,模型表现的效果越好(大力出奇迹的前置条件)
•
实现表明,模型越大,patches越小,效果越好
2-2 整体结构
3-影响
参考
1.
^
https://openai.com/research/video-generation-models-as-world-simulators
2.
^
https://arxiv.org/abs/2010.11929
3.
^
(a)(b)
https://arxiv.org/pdf/2103.15691.pdf
4.
^
https://arxiv.org/abs/2212.09748
5.
^
https://www.bilibili.com/video/BV1Bx4y1k7BQ/?spm_id_from=333.1007.top_right_bar_window_history.content.click&vd_source=6a4249c06b86a4dec1d937cbbb1e0cbb
6.
^
https://worldmodels.github.io/
7.
^
https://repo-sam.inria.fr/fungraph/3d-gaussian-splatting/