快手开源 I2V-Adapter，即插即用、轻量级模块让静态图像秒变动态视频

AIGC动态1年前 (2024)发布 ai-front

2,819 0 0

文章摘要

快手大模型团队开发了一种名为I2V-Adapter的新技术，该技术是一种轻量级适配模块，基于Stable Diffusion的文生视频扩散模型。I2V-Adapter能够在不改变现有文本到视频生成（T2V）模型原始结构和预训练参数的情况下，将静态图像转换成动态视频。

I2V-Adapter的提出基于视频生成的独特挑战，即建模视频帧间的时序连贯性。现有大多数方案都基于预训练的文本生成视频（T2I）扩散模型加入时序模块对视频中的时序信息进行建模。I2V-Adapter通过将输入图像作为视频首帧与噪声并行输入给网络，在模型的空间模块中的自注意力层，所有帧都会额外查询一次首帧信息，即key、value特征都来自于不加噪的首帧，输出结果与原始模型的自注意力结构相加。此外，I2V-Adapter还引入了帧间相似性先验，用于在生成视频的稳定性和运动强度之间取得平衡。

快手AI团队对I2V-Adapter进行了全面评估，设定了四种定量指标，包括DoverVQA（美学评分）、CLIPTemp（首帧一致性）、FlowScore（运动幅度）以及WarppingError（运动误差）。实验结果表明，I2V-Adapter在各项指标上均展现出了卓越的性能，尤其在美学评分和首帧一致性方面表现突出。

I2V-Adapter展现了其卓越的多功能性，不仅适用于广泛的I2V任务场景，还能与定制化的T2I模型结合，实现独具特色的风格化I2V任务。此外，I2V-Adapter还能与ControlNet兼容，为用户带来高度可控的I2V体验。

快手与联发科技达成技术合作，共同探索并推进视频生成技术的革新。通过此次合作，快手将其先进的AI模型I2V Adapter与联发科技的Dimensity平台强大的AI计算能力结合，实现将静态照片转化为生动影片。该平台支持个性化定制，提供了丰富多样的动画风格、精选的背景音乐和个性化的文字添加功能，让用户能够自由发挥创意，打造出独一无二的影片作品。

展望未来，I2V-Adapter以其独特的即插即用特性，为图像到视频生成任务带来了革命性的轻量级扩散模型模块。其灵活的解耦设计赋予了该方案出色的兼容性，使得DreamBooth、Lora与ControlNet等模块能够无缝集成，为用户提供高度定制化和可控的图像到视频生成体验。随着AI技术的不断发展，I2V-Adapter有望在内容推荐、应用开发等领域发挥更大的作用，推动相关行业的创新和发展。