我是跪着看完的：最接近SORA的开源模型来了！训练你自己的SORA模型！

AIGC动态2年前 (2024)发布 admin

3,098 0 0

模型信息

【模型公司】 OpenAI
【模型名称】 gpt-3.5-turbo-0125
【摘要评分】 ★★★★☆

文章摘要

【关键词】 Latte、Vision Transformer、开源、视频生成、模型结构

文章介绍了一个名为Latte的开源模型，该模型采用了与SORA相同的Vision Transformer结构。文章首先讨论了Vision Transformer的优势，指出其能够更好地处理视频生成任务，相较于传统的3D U-Net结构，Vision Transformer能够更好地学习运动图像的规律。接着，文章介绍了从3D U-Net到Vision Transformer的发展过程，以及Vision Transformer的建模方式类似于语言模型，能够将视频看作一个序列进行处理。作者还提到了OpenAI倾向于采用相对简单、容易操作的模型结构，并通过大规模数据和GPU来提升模型性能的策略。

在讨论Latte模型时，文章提到了作者复现了论文的text2video训练代码，并开源给用户使用。训练Latte模型需要下载模型、准备训练视频并运行训练脚本。作者还对训练过程进行了改进，如增加了gradient accumulation的支持、加入了验证样本、wandb的支持以及classifier-free guidance训练的支持。在模型效果方面，Latte在大幅运动等方面表现不错，但并非效果最好的模型。最后，文章提到了Latte训练需要80GB显存的A100或H100，同时表示将持续分享其他效果更好的模型，并欢迎关注和交流。

原文信息

【原文链接】 阅读原文
【阅读预估】 1197 / 5分钟
【原文作者】 AI统治世界计划
【作者简介】 Enough Human, More AI。杭州艾写科技创始人，前达摩院、硅谷大厂资深AI领域负责人。AI创业者。热门开源推理框架：AirLLM作者。定制化LLM、RAG、Multi-Agent服务：请公众号后台留言。