一块4090搞定实时视频生成！Adobe黑科技来了

AIGC动态3个月前发布 almosthuman2014

730 0 0

文章摘要

近年来，视频合成技术取得了显著进展，但实时生成高质量视频仍然面临挑战。基于双向注意力机制的扩散 Transformer（DiT）能够生成复杂的时序动态内容，但其非因果性设计无法满足实时流媒体需求。自回归（AR）模型虽然具有时序因果性优势，却因依赖有损向量量化技术而难以达到顶尖画质。现有的「教师强制」（TF）和扩散强制（DF）方法也存在误差累积和曝光偏差等问题，限制了视频生成模型在实时交互应用中的性能。

Adobe 联合德克萨斯大学奥斯汀分校的研究者提出了一种名为 Self Forcing 的新算法，旨在解决自回归视频生成中的暴露偏差问题。该方法通过在训练期间显式地展开自回归生成过程，弥合了训练与测试分布之间的差距。每一帧的生成都以先前自生成的帧为条件，而不是依赖于真实的帧。这种机制使得模型能够运用整体分布匹配损失函数对完整的生成视频序列进行监督，有效减轻暴露偏差并减少误差累积。

尽管 Self Forcing 的序列特性会阻碍并行训练，但研究表明，它可以高效地作为训练后阶段的一种算法来实现，此时模型并不需要大量的梯度更新即可收敛。通过采用少量步数的扩散主干网络以及精心设计的梯度截断策略，Self Forcing 算法的效率优于其他并行策略，在相同的实际训练时间内实现了更优的性能。此外，该研究还引入了一种滚动 KV 缓存机制，进一步提升了视频外推的效率。

实验结果显示，采用 Self Forcing 的模型能够在单个 H100 GPU 上以 17 FPS 的帧率实现实时视频生成，延迟低于一秒，同时在生成质量上与近期较慢的双向和自回归视频扩散模型相比具有竞争力或更优。这些进步为真正的交互式视频生成用例，如直播、游戏和世界模拟，打开了大门。研究者表示，采用 Self Forcing 的模型可以生成 480p 的准高清视频，首帧延迟约为 0.8 秒。在持续生成速率方面，单块 H100 GPU 约为 17 帧每秒，单块 RTX 4090 在优化后约为 10 帧每秒。目前可以生成基础的 5 秒视频以及外推延展后更长的 10 秒视频。

Self Forcing 的核心思想是在训练阶段就采用与推理时相同的自回归展开方式生成视频。具体实现包含两个关键技术突破：一是动态条件生成机制，每一帧的生成过程都会动态结合过去时间步已生成的清晰帧和当前时间步的噪声帧，并通过迭代去噪完成生成；二是训练阶段 KV 缓存创新，将 KV 缓存机制提前到训练阶段使用。研究者还提出了一系列创新策略，如梯度截断、动态步数采样和梯度流隔离，以解决计算代价和内存消耗过大的问题。

受大语言模型研究的启发，研究者为自回归扩散模型提出了一种滚动 KV 缓存机制，可以实现无限长视频生成且无需重新计算 KV 缓存。这种设计既实现了无限帧生成能力，又维持了稳定的计算效率。实验采用 Wan2.1-T2V-1.3B 模型实现 Self Forcing，配合 VBench 和用户偏好研究，评估了生成视频的视觉质量与语义对齐度。研究结果显示，分块自回归方案在 VBench 评估中全面超越所有基线模型，同时在人类偏好度测试中取得最优成绩。该方案还能实现 17 帧/秒的实时吞吐量，配合亚秒级首帧延迟，足以支持直播等实时视频流应用场景。

用户调研结果显示，分块 Self Forcing 模型在所有对比中持续获得最高偏好度，包括作为模型初始化基础的 Wan2.1 多步扩散模型。帧级变体版本在保持强劲生成质量的同时，实现了最低延迟（0.45 秒），特别适合对延迟敏感的实时应用场景。这些实验结果均采用 DMD 损失函数作为优化目标。采用 SiD 和 GAN 目标函数训练的模型在消融实验中表现出了类似的性能。CausVid 存在误差累积问题，导致饱和度随时间推移不断增加。本文方法在画质上略优于 Wan2.1 或 SkyReels-V2，同时延迟时间缩短约 150 倍。