
文章摘要
【关 键 词】 AI、视频生成、技术创新、成本效益、实时生成
字节跳动近日发布了全球首个由AI生成的25秒视频,这一成果由Seaweed-7B模型完成。该模型参数量仅为70亿,但在核心任务上的表现超越了参数量为其两倍的主流模型,且训练成本仅为后者的三分之一。Seaweed-7B的发布标志着视频生成领域的重大突破,特别是在成本效益和性能方面。
Seaweed-7B项目由字节跳动的Seed团队主导,团队成员包括蒋路、冯佳时等资深研究人员。蒋路作为前谷歌高级科学家,曾在多个核心产品中发挥关键作用,包括YouTube、云服务、AutoML等。吴永辉,原Google DeepMind副总裁,也于今年2月加入字节跳动,担任Seed基础研究负责人。这些资深研究人员的加入为项目的成功提供了坚实的技术支持。
Seaweed-7B具备多项关键能力,使其在AI视频生成领域脱颖而出。首先,它能够同步生成音频和视频,这在效率和内容一致性方面迈出了一大步。其次,它支持长镜头生成,能够在单条提示词下一次性生成25秒的高质量视频,远超以往拼接或续写的方式。第三,Seaweed-7B拥有实时生成能力,能以1280×720分辨率、24帧每秒的速度实时生成视频,这在当前AI视频领域几乎是革命性的突破。此外,模型还引入了CameraCtrl-II功能,支持在三维世界中进行镜头调度,并显著提升了物理模拟与真实感表现。
在资源受限的环境中,架构设计尤为重要。Seaweed-7B采用DiT(扩散变换器)架构,并通过对抗性后训练(APT)技术优化生成速度和质量。该模型只需单次神经函数评估即可生成2秒的720p视频,推理速度比同类模型提升62倍。此外,团队开发了一套高吞吐量且灵活的视频管理流程,每天能够处理超过50万小时的视频数据,足以用于训练。
在基础设施层面,字节跳动围绕“高效训练”进行了系统性的优化,显著提升了模型的算力利用率与资源效率。团队采用三维并行策略(数据并行、上下文并行、模型切分)来应对长上下文视频训练的挑战,并引入“运行时负载均衡”机制,动态调配图像与视频样本在不同GPU间的分布。此外,Seaweed-7B还创新性地设计了多级激活检查点(MLAC)机制,支持将中间激活存储在GPU、CPU或磁盘等多层级介质中,大幅降低了显存占用。
尽管字节跳动认为其资源消耗“适度”,不少网友对此持有不同看法,指出动用上千张顶级GPU进行近一个月的训练,无论如何都绝非小数目。然而,Seaweed-7B在大规模分布式训练中实现了38%的FLOPs利用率,成为当前AI视频生成领域中兼顾性能与效率的代表性模型之一。
原文和模型
【原文链接】 阅读原文 [ 2085字 | 9分钟 ]
【原文作者】 AI前线
【摘要模型】 deepseek-v3
【摘要评分】 ★★★★★