我是跪着看完的:最接近SORA的开源模型来了!训练你自己的SORA模型!

AIGC动态9个月前发布 admin
1,227 0 0

模型信息


【模型公司】 OpenAI
【模型名称】 gpt-3.5-turbo-0125
【摘要评分】 ★★★★☆

我是跪着看完的:最接近SORA的开源模型来了!训练你自己的SORA模型!
 

文章摘要


【关 键 词】 LatteVision Transformer开源视频生成模型结构

文章介绍了一个名为Latte开源模型,该模型采用了与SORA相同的Vision Transformer结构。文章首先讨论了Vision Transformer的优势,指出其能够更好地处理视频生成任务,相较于传统的3D U-Net结构,Vision Transformer能够更好地学习运动图像的规律。接着,文章介绍了从3D U-Net到Vision Transformer的发展过程,以及Vision Transformer的建模方式类似于语言模型,能够将视频看作一个序列进行处理。作者还提到了OpenAI倾向于采用相对简单、容易操作的模型结构,并通过大规模数据和GPU来提升模型性能的策略。

在讨论Latte模型时,文章提到了作者复现了论文的text2video训练代码,并开源给用户使用。训练Latte模型需要下载模型、准备训练视频并运行训练脚本。作者还对训练过程进行了改进,如增加了gradient accumulation的支持、加入了验证样本、wandb的支持以及classifier-free guidance训练的支持。在模型效果方面,Latte在大幅运动等方面表现不错,但并非效果最好的模型。最后,文章提到了Latte训练需要80GB显存的A100或H100,同时表示将持续分享其他效果更好的模型,并欢迎关注和交流。

原文信息


【原文链接】 阅读原文
【阅读预估】 1197 / 5分钟
【原文作者】 AI统治世界计划
【作者简介】 Enough Human, More AI。 杭州艾写科技创始人,前达摩院、硅谷大厂资深AI领域负责人。AI创业者。 热门开源推理框架:AirLLM作者。 定制化LLM、RAG、Multi-Agent服务:请公众号后台留言。

© 版权声明
“绘蛙”

相关文章

暂无评论

暂无评论...