作者信息
【原文作者】 AIProall
【作者简介】 小冰数字人一级代理 三万人AI社群初创合伙人 AI行业应用解决方案、商业落地应用案例
【微 信 号】 AichatGPTone
文章摘要
【关 键 词】 视频超分、文本引导、潜在扩散、时间一致性、Upscale-A-Video
文章主要介绍了Upscale-A-Video,一种用于视频超分辨率任务的文本引导的潜在扩散框架。该框架通过两个关键机制确保时间一致性:在本地,它将时间层集成到 U-Net 和 VAE-Decoder 中,在短序列中保持一致性;在全球范围内,引入了一个流引导的循环潜伏传播模块,通过在整个序列中传播和融合潜伏来增强整体视频稳定性。
Upscale-A-Video通过预训练的扩散模型、局部时间一致性、全局时间一致性和推理时的附加条件等技术细节和框架设计,实现了在真实世界视频超分辨率任务中的高效性能。
在实验结果部分,文章展示了Upscale-A-Video在多个数据集上的表现,包括合成测试数据集、真实世界数据集和AIGC数据集。结果显示,Upscale-A-Video在这些数据集上都取得了优秀的成绩。此外,文章还进行了消融研究和用户研究,进一步证实了Upscale-A-Video的有效性和实用性。
原文信息
【原文链接】 阅读原文
【原文字数】 2043
【阅读时长】 7分钟
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...