Index-AniSora:B站开源动画生成模型,斩获多项SOTA入选IJCAI25

文章摘要
B站近期开源了名为Index-AniSora的动画视频生成模型,该模型专为二次元风格视频设计,支持多种类型的动画生成,包括番剧、国创、漫改动画、VTuber、动画PV和鬼畜动画等。这一技术框架基于B站提出的AniSora系统,旨在提升动画内容的生产效率与质量。通过高效的数据处理链路,构建了超过千万条高质量的文本-视频对,为模型训练提供了坚实的数据基础。此外,针对动画生成的独特需求,开发了统一的扩散生成框架,并引入时空掩码机制,灵活支持图生视频、插帧补全和局部控制等任务,实现对角色口型、动作乃至局部区域的精细控制,显著增强内容生成的可控性和创作自由度。
AniSora系统还设计了首个面向动画视频的专用评估基准,涵盖多个二次元子类型,填补了现有自然视频评估体系的空白。基于VLM模型进行了定向优化,使其更好地理解动漫语境与ACG审美,从而构建出更贴合创作者真实需求的自动化视频评估系统。本次开源内容包括AniSoraV1.0和AniSoraV2.0两个版本,分别基于CogVideoX-5B和Wan2.1-14B基座模型训练,支持视频局部区域引导控制、时序引导控制等。AniSoraV2.0采用蒸馏加速方案,保证效果的同时,提升推理性能,并支持国产芯片华为910B的高效分布式训练。
此外,B站还开源了首个基于动画领域人类偏好强化学习模型及训练框架,以及用该技术优化过的AniSoraV1.0_RL,提供更加高效的视频效果强化训练,更加符合二次元审美的模型。为动漫视频生成任务构建了首个包含30,000条人工标注样本的高质量奖励数据集,涵盖六个关键维度的人类偏好标注:视觉平滑度、运动感、视觉吸引力、文本一致性、图像一致性与角色一致性。基于此,设计了AnimeReward奖励模型,针对不同维度特征,引入专门的视觉-语言模型以提升拟合准确性。核心创新在于提出差距感知偏好优化算法(GAPO),通过显式建模正负样本间的偏好差距,强化奖励信号,引导模型更高效地学习人类偏好,显著提升对齐性能。
这一开源项目不仅为动画创作者提供了强大的工具,也为动画视频生成领域的研究和发展提供了新的方向。通过结合高效的数据处理、先进的生成框架和专用评估系统,Index-AniSora有望在未来的动画制作中发挥重要作用,推动二次元内容创作的进一步发展。
原文和模型
【原文链接】 阅读原文 [ 1432字 | 6分钟 ]
【原文作者】 机器之心
【摘要模型】 deepseek-v3
【摘要评分】 ★★☆☆☆