OpenAI 未至，Open-Sora 再度升级！支持生成 16 秒 720p 视频

AIGC动态1年前 (2024)更新 admin

1,947 0 0

OpenAI 未至，Open-Sora 再度升级！支持生成 16 秒 720p 视频

文章摘要

Open-Sora 是一个开源的视频生成平台，最近进行了更新，增加了对长达16秒、720p分辨率视频的支持。此外，它还可以处理任何宽高比的文本到图像、文本到视频、图像到视频、视频到视频和无限长视频的生成需求。Open-Sora 的最新版本完全开源，包含了最新的模型架构、模型权重、多时间/分辨率/长宽比/帧率的训练流程、数据收集和预处理的完整流程、所有的训练细节、demo示例以及详尽的上手教程。

技术报告全面解读了Open-Sora的最新功能，包括支持长视频生成、视频生成分辨率最高可达720p、单模型支持任何宽高比、不同分辨率和时长的文本到图像、文本到视频、图像到视频、视频到视频和无限长视频的生成需求。此外，报告还提出了更稳定的模型架构设计，支持多时间/分辨率/长宽比/帧率训练，并开源了最新的自动数据处理全流程。

Open-Sora采用了多阶段训练方法，通过分步骤引入数据，更高效地实现了高质量视频生成的目标。初始阶段大部分视频采用144p分辨率，同时与图片和240p、480p的视频进行混训。第二阶段将大部分视频数据分辨率提升至240p和480p。第三阶段进一步增强至480p和720p。整个多阶段训练流程在约9天内完成。

统一的图生视频/视频生视频框架允许基于Transformer的特性扩展DiT架构以支持图像到图像以及视频到视频的任务。作者团队提出了一种掩码策略来支持图像和视频的条件化处理，通过设置不同的掩码，可以支持各种生成任务。

支持多时间/分辨率/长宽比/帧率训练是Open-Sora的一个重要特性。作者团队提出了分桶的策略，通过深入阅读作者发布的技术报告，我们了解到，所谓的桶，是（分辨率、帧数、长宽比）的三元组。他们为不同分辨率的视频预定义了一系列宽高比，以覆盖大多数常见的视频宽高比类型。

数据收集和预处理流程也是Open-Sora 是一个开源的视频生成平台，最近进行了更新，增加了对长达16秒、720p分辨率视频的支持。此外，它还可以处理任何宽高比的文本到图像、文本到视频、图像到视频、视频到视频和无限长视频的生成需求。Open-Sora 的最新版本完全开源，包含了最新的模型架构、模型权重、多时间/分辨率/长宽比/帧率的训练流程、数据收集和预处理的完整流程、所有的训练细节、demo示例以及详尽的上手教程。

数据收集和预处理流程也是Open-Sora的一个重要组成部分。作者团队甚至对数据收集与处理环节也提供了详尽的指南。他们建立了一个自动化的数据处理流程，该流程遵循奇异值分解（SVD）原则，涵盖了场景分割、字幕处理、多样化评分与筛选，以及数据集的管理系统和规范。

在性能全方位评测方面，Open-Sora能够将用户脑中的景象，通过文字描述的方式，捕捉并转化为动人的动态视频。无论是风景、自然生物，还是不同分辨率、长宽比、时长的视频，Open-Sora都能生成较为真实的视频。