📖
Sora技术详解及影响分析

用户2838

用户5694

2024年2月29日修改

🌐

Datawhale HuggingSD开源教程负责人李孝杰 Sora技术详解及影响分析：https://zhuanlan.zhihu.com/p/683004185

从openai sora([1])的技术报告首段可以看出sora的野心远远不止视频生成，他们的目标是通过视频数据来学习一个世界模型或者世界模拟器，这才是真正令人兴奋和激动的部分。​

1-数据工程

1-1 采用patches统一训练数据格式

1-2 在原始图片尺寸上训练

1-3 使用re-captioning获得text-videos对

2-网络结构

2-1 DiT([4])

简单来说就是tansformer+ddpm，核心就是用tansformer的结构替换掉stable diffusion中的unet结构，来预测噪声实现去噪。这个替换可以带来以下优势。​

•
随着数据规模或者训练时间的增强，模型表现的效果越好（大力出奇迹的前置条件）​

•
实现表明，模型越大，patches越小，效果越好​

2-2 整体结构

3-影响

参考