Open-Sora全面开源升级：支持16s视频生成和720p分辨率

AIGC动态1年前 (2024)发布 almosthuman2014

2,137 0 0

文章摘要

【关键词】 视频生成、开源社区、技术报告、多阶段训练、性能评测

Open-Sora，一个开源社区项目，近期进行了一次重大更新。这次更新带来了一系列新功能和改进，使得Open-Sora在视频生成方面更加强大和灵活。以下是对Open-Sora更新内容的详细总结：

1. 视频生成能力提升：更新后的Open-Sora现在支持单镜头长达16秒的视频生成，分辨率最高可达720p。这意味着用户可以利用该工具生成更长、更清晰的视频内容。

2. 宽高比和分辨率的灵活性：新版本能够处理任何宽高比的文本到图像、文本到视频、图像到视频、视频到视频以及无限长视频的生成需求，大大提升了应用的通用性和适用性。

3. 开源资源：Open-Sora的所有更新内容均为开源，包括最新的模型架构、模型权重、多时间/分辨率/长宽比/帧率的训练流程、数据收集和预处理的完整流程、训练细节、demo示例以及详尽的上手教程。

4. 技术报告发布：作者团队在GitHub上发布了Open-Sora技术报告，详细介绍了本次更新的关键特性，如长视频生成支持、高分辨率视频生成、单模型多需求支持、稳定的模型架构设计以及开源的自动数据处理全流程。

5. 时空扩散模型ST-DiT-2：对原有STDiT架构进行了关键性改进，提高了模型的训练稳定性和整体性能。新架构采用了旋转位置编码（RoPE embedding）和QK归一化技术，支持多分辨率、不同长宽比和帧率的训练需求。

6. 多阶段训练方法：通过分步骤引入数据，相较于单一阶段训练，多阶段训练更高效地实现了高质量视频生成的目标。

7. 统一的图生视频/视频生视频框架：基于Transformer的特性，提出了一种掩码策略来支持图像和视频的条件化处理，能够支持多种生成任务。

8. 掩码策略配置：在模型训练阶段引入了随机掩码策略，提高了模型处理图像条件化的能力。

9. 支持多时间/分辨率/长宽比/帧率训练：通过分桶策略，增加了采样灵活性，改善了帧和构图。

10. 数据收集和预处理流程：提供了详尽的指南和自动化的数据处理流程，包括场景分割、字幕处理、多样化评分与筛选等。

11. 性能全方位评测：Open-Sora能够根据文字描述生成动人的动态视频，包括风景、自然生物等，展现了其强大的视频生成效果。

综上所述，Open-Sora的这次更新在视频生成的质量和灵活性上都有了显著提升，为视频创作者和技术开发者提供了一个功能丰富、操作简便的开源工具。

原文和模型

【原文链接】 阅读原文 [ 4487字 | 18分钟 ]
【原文作者】 机器之心
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★☆

Moonshot AI

月之暗面是一家 AI 初创大模...

# AIGC动态 # 图像生成 # 大模型 # 视频生成 # 多阶段训练 # 开源社区 # 性能评测 # 技术报告 # 视频生成

文章版权归作者所有，未经允许请勿转载。

让Sora东京女郎唱歌、高启强变声罗翔，阿里人物口型视频生成绝了

机器之心

2,015

Sora并非完美，致命缺点也很多

AIGC开放社区

2,296

微软制霸AI编程？GitHub被曝秘密开发Copilot专属API，“杀死”Cursor和一众Copilot开源替代！

AI前线

1,622

Meta、谷歌、特斯拉，竞争对手联合起来吐槽OpenAI！Sora不懂物理世界，它只是GPT3！

admin

2,044

万字梳理：阿里、腾讯等8家中国互联网大厂的50款大模型及应用，能否全面超越GPT-4？ | 钛媒体AGI

钛媒体AGI

2,538

Sora 平替出现了！字节 Dreamina 开放测试，申请就给用｜AI 鲜测

硅星人Pro

2,684

暂无评论

暂无评论...

Open-Sora全面开源升级：支持16s视频生成和720p分辨率

文章摘要

原文和模型

规模增长超 50%！普通人如何上手 AI 大模型应用开发？ | 极客时间

全球最大开源模型再刷爆纪录！4800亿参数MoE击败Llama 3、Mixtral

相关文章

暂无评论

热门网址

热门文章

Open-Sora全面开源升级：支持16s视频生成和720p分辨率

文章摘要

原文和模型

规模增长超 50%！普通人如何上手 AI 大模型应用开发？ | 极客时间

全球最大开源模型再刷爆纪录！4800亿参数MoE击败Llama 3、Mixtral

相关文章

暂无评论

Trac-AI IDE

极客训练营-扫码领取免费材料

讯飞文书-办公助手

热门网址

热门文章