视频可以精准控制了!一句话给熊戴眼镜的那种,扩散模型立功,浙大悉尼科技大学出品 | ICLR 2025

AIGC动态2天前发布 QbitAI
106 0 0
视频可以精准控制了!一句话给熊戴眼镜的那种,扩散模型立功,浙大悉尼科技大学出品 | ICLR 2025

 

文章摘要


【关 键 词】 视频编辑多粒度扩散模型特征分离开源

随着视频生成技术的快速发展,视频编辑作为其中的一个重要方向,逐渐成为研究热点。然而,传统的视频编辑方法通常局限于风格转换或单一目标的编辑,难以满足用户对多区域、多粒度编辑的需求。针对这一问题,悉尼科技大学ReLER Lab团队与浙江大学学者合作,提出了一种名为VideoGrain的多粒度视频编辑框架,旨在实现从类别级、实例级到局部级的精细化视频编辑。

多粒度视频编辑的核心在于对视频内容的分层处理。 具体而言,类别级编辑针对同一类别内的对象进行统一修改,例如将视频中的两个人全部变为“蜘蛛侠”;实例级编辑则允许对视频中的每个独立实例进行差异化处理,例如将左边的男人变为“蜘蛛侠”,右边的男人变为“北极熊”;局部级编辑更进一步,能够对单个实例的特定部分进行修改,例如为“北极熊”添加太阳镜。这种分层编辑方式不仅提升了编辑的灵活性,也为用户提供了更精细化的控制能力。

然而,实现多粒度视频编辑面临两大主要挑战:特征耦合文本到多个区域的控制。特征耦合问题表现为扩散模型在特征提取过程中难以区分不同实例,导致编辑效果受限;文本到多个区域的控制问题则体现在交叉注意力权重分布的不精确,使得编辑目标无法准确聚焦于预期区域。为了解决这些问题,研究团队提出了ST-Layout Attention(时空布局注意力机制),通过同时调节交叉注意力和自注意力,确保每个像素或文本嵌入仅关注到正确的区域。

ST-Layout Attention的引入显著提升了多粒度视频编辑的精度和一致性。 在交叉注意力层中,团队通过增强正向关注和减弱负向关注,将文本特征精确分配到目标区域,例如将“蜘蛛侠”的权重集中在左边的人身上,而“北极熊”的权重集中在右边的人身上。在自注意力层中,团队通过限制不同区域之间的负向交互,确保同一区域内的特征分离,例如左边人的鼻子仅关注左侧区域,避免了对右侧区域的干扰。

实验结果表明,VideoGrain在类别级、实例级和局部级编辑任务中均表现出色。例如,在实例级编辑中,VideoGrain能够将两个猴子分别修改为泰迪熊和金毛犬;在局部级编辑中,VideoGrain不仅能够将人的身份修改为超人,还能为其添加墨镜。此外,VideoGrain在处理复杂非刚性运动场景时也表现出较强的鲁棒性,例如在打羽毛球的场景中成功实现了多区域编辑。

与现有方法相比,VideoGrain在定性和定量评估中均展现出显著优势。例如,在部分级编辑任务中,VideoGrain能够同时编辑太阳镜和拳击手套,而其他方法则无法兼顾;在实例级编辑任务中,VideoGrain能够分别将左侧人物变为钢铁侠,右侧人物变为猴子,打破了人类类别的限制。定量分析进一步验证了VideoGrain在编辑精度和时间一致性方面的优越性。

VideoGrain的成功不仅为视频编辑提供了新的范式,也为扩散模型和视频生成领域带来了新的可能性。 目前,研究团队已将VideoGrain的所有数据集、模型和代码开源,并计划进一步探索音视频生成、视角切换生成以及电影级多人物有声长视频生成等方向。这一研究有望推动视频生成技术的进一步发展,并为工业界和学术界提供更多创新灵感。

原文和模型


【原文链接】 阅读原文 [ 2458字 | 10分钟 ]
【原文作者】 量子位
【摘要模型】 deepseek-v3
【摘要评分】 ★★★★★

© 版权声明
“绘蛙”

相关文章

“极客训练营”

暂无评论

暂无评论...