用短视频成本生成长视频,字节Seed新注意力机制让计算量降低85%

AIGC动态8小时前发布 QbitAI
39 0 0
用短视频成本生成长视频,字节Seed新注意力机制让计算量降低85%

 

文章摘要


【关 键 词】 长视频生成MoC机制计算降本信息检索技术实现

字节Seed与斯坦福等机构研究人员推出新模型,提出Mixture of Contexts(MoC)稀疏注意力机制,可将长视频生成的计算量降低85%,且能保持视频质量和连贯性。

在低成本生成分钟级视频方面,该技术展现出良好效果。写实场景中,56秒视频经多次视角切换,人物外貌、衣着及场景物品特征保持一致;卡通场景里,一分半视频也能保持前后一致性。生成长时间一致视频的成本大幅降低,使用MoC机制生成一分钟480P视频,计算量仅需2.32×10¹²FLOPs,而基线模型需1.66×10¹³FLOPs,削减了85%。对于短片,MoC同样能降本,多镜头64秒480P视频计算量节省约86%,单镜头8秒320×192短片计算量减少约78%,且各项性能指标优于基线模型。

技术实现上,研究团队将长视频生成重构为信息检索。他们认为长视频生成受制于跨时域记忆的高效调取,为此提出MoC稀疏上下文检索层,将生成过程重构为内部信息检索。MoC的核心机制是把跨模态序列切成语义同质的内容块,让每个查询token只与最相关的少数块建立注意力连接,将计算集中在重要历史。具体步骤包括“内容对齐分块”,依据帧、镜头、模态边界动态切块,提高检索精度;“动态top – k路由”,无参数却能通过梯度调节投影矩阵,训练成高表达力的检索器。为防止提示漂移和局部模糊,加入“跨模态”和“镜头内”两类强制边。同时,在路由阶段加入严格时间掩码,杜绝循环,提升长程动态平滑性与训练稳定性。工程实现上,MoC将选中的键值一次性打包进FlashAttention可变长核,实现对数千万token的线性伸缩且访存连续,可在GPU上充分并行。相关论文和项目主页信息也已公布。

原文和模型


【原文链接】 阅读原文 [ 1177字 | 5分钟 ]
【原文作者】 量子位
【摘要模型】 doubao-1-5-pro-32k-250115
【摘要评分】 ★☆☆☆☆

© 版权声明
“绘蛙”

相关文章

“极客训练营”

暂无评论

暂无评论...