文章摘要
【关 键 词】 视频生成、I2V技术、AI模型、图像转换、技术创新
快手大模型团队开发了一种名为I2V-Adapter的新技术,该技术是一种轻量级适配模块,基于Stable Diffusion的文生视频扩散模型。I2V-Adapter能够在不改变现有文本到视频生成(T2V)模型原始结构和预训练参数的情况下,将静态图像转换成动态视频。
I2V-Adapter的提出基于视频生成的独特挑战,即建模视频帧间的时序连贯性。现有大多数方案都基于预训练的文本生成视频(T2I)扩散模型加入时序模块对视频中的时序信息进行建模。I2V-Adapter通过将输入图像作为视频首帧与噪声并行输入给网络,在模型的空间模块中的自注意力层,所有帧都会额外查询一次首帧信息,即key、value特征都来自于不加噪的首帧,输出结果与原始模型的自注意力结构相加。此外,I2V-Adapter还引入了帧间相似性先验,用于在生成视频的稳定性和运动强度之间取得平衡。
快手AI团队对I2V-Adapter进行了全面评估,设定了四种定量指标,包括DoverVQA(美学评分)、CLIPTemp(首帧一致性)、FlowScore(运动幅度)以及WarppingError(运动误差)。实验结果表明,I2V-Adapter在各项指标上均展现出了卓越的性能,尤其在美学评分和首帧一致性方面表现突出。
I2V-Adapter展现了其卓越的多功能性,不仅适用于广泛的I2V任务场景,还能与定制化的T2I模型结合,实现独具特色的风格化I2V任务。此外,I2V-Adapter还能与ControlNet兼容,为用户带来高度可控的I2V体验。
快手与联发科技达成技术合作,共同探索并推进视频生成技术的革新。通过此次合作,快手将其先进的AI模型I2V Adapter与联发科技的Dimensity平台强大的AI计算能力结合,实现将静态照片转化为生动影片。该平台支持个性化定制,提供了丰富多样的动画风格、精选的背景音乐和个性化的文字添加功能,让用户能够自由发挥创意,打造出独一无二的影片作品。
展望未来,I2V-Adapter以其独特的即插即用特性,为图像到视频生成任务带来了革命性的轻量级扩散模型模块。其灵活的解耦设计赋予了该方案出色的兼容性,使得DreamBooth、Lora与ControlNet等模块能够无缝集成,为用户提供高度定制化和可控的图像到视频生成体验。随着AI技术的不断发展,I2V-Adapter有望在内容推荐、应用开发等领域发挥更大的作用,推动相关行业的创新和发展。
原文和模型
【原文链接】 阅读原文 [ 3086字 | 13分钟 ]
【原文作者】 AI前线
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★★