文章摘要
【关 键 词】 超分辨率、视频处理、技术挑战、模型创新、细节重建
视频超分辨率技术致力于将低分辨率视频转化为高分辨率,面临两大挑战:一是保持视频帧的时间连贯性,避免闪烁或抖动;二是放大视频帧时重建高频细节,以呈现清晰纹理。
Adobe和马里兰大学的研究人员推出了VideoGigaGAN模型,该模型兼顾帧率连贯性和丰富的高频细节。
VideoGigaGAN基于先前的大规模图像超分辨率模型GigaGAN,后者在8倍放大图像时仍能生成逼真的高分辨率图像。然而,直接将GigaGAN应用于视频帧会导致时间抖动和混叠伪影,研究人员通过创新性改造解决了这一问题。
创新之处在于引入了时序卷积和自注意力层,将GigaGAN从2D图像模型扩展为3D视频模型,并加入光流引导模块,以改善视频的时间一致性和细节丰富性。
时序卷积层在解码器块中紧随空间自注意力层之后,使模型能先在空间维度提炼特征,然后在时间维度进一步加工,更好地理解视频中的时间动态。
同时,自注意力层与光流引导结合,捕捉空间细节和纹理,并增强时间一致性。
光流引导模块通过预测输入低分辨率视频的双向光流图,捕捉像素级运动信息,然后利用双向循环神经网络处理光流图和原始帧像素,学习时间感知的特征。
通过反向变形层,确保在超分辨率过程中保持特征的空间一致性。这一方法让VideoGigaGAN在物体快速运动时也能生成清晰的超分辨率视频,准确估计运动轨迹并保留高频细节。
原文和模型
【原文链接】 阅读原文 [ 1608字 | 7分钟 ]
【原文作者】 AIGC开放社区
【摘要模型】 glm-4
【摘要评分】 ★★★★☆
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...