AAAI 2025丨2080Ti 也能 4K 图像抠图 !美图&北交大提出超高分辨率自然图像抠图算法 MEMatte
文章摘要
【关 键 词】 图像抠图、自然图像、显存优化、Transformer、高分辨率
美图影像研究院(MT Lab)与北京交通大学联合提出了一种名为MEMatte的显存友好型自然图像抠图框架,旨在解决显存受限环境下的高清图像精细抠图问题。该研究针对高分辨率图像的抠图需求,利用Transformer(ViT)的全局注意力模块提升性能,同时通过双分支令牌路由设计降低计算开销。MEMatte框架的核心在于动态路由机制(BATR),它将包含语义信息的令牌送入全局注意力模块,其余令牌则送入轻量化令牌提炼模块(LTRM)处理,无需预设固定比例,实现输入自适应调整,显著降低计算开销,并在Nvidia GeForce 2080Ti GPU上实现4K分辨率图像抠图。
研究团队还开源了超高分辨率自然图像抠图数据集UHR-395,包含11个类别共395个前景物体,平均分辨率高达4872×6017,为高分辨率模型训练与评估提供支持。实验结果显示,MEMatte在基准测试及UHR-395高分辨率测试集上均优于现有方法,并在域外测试集上展现良好泛化性能。在抠图测试集Composition-1K上,MEMatte相较于基线节省约88%显存开销,降低约50%推理时间。
MEMatte的训练采用BATR训练机制,结合蒸馏学习策略与常规抠图训练损失,实现快速稳定模型训练。研究团队假设数据分布均匀采样,每次压缩比例应为定值,通过约束模型预测值与预设值差异,训练出有效Router以自适应处理各种图像。
MEMatte的提出,为实现复杂图像编辑与视频后期处理等下游任务提供关键技术支持,降低推理过程中的内存使用量和延迟,在高分辨率和真实世界数据集上实现先进性能,突出令牌路由机制BATR和轻量化令牌细化模块LTRM的稳健性,为用户带来高效优质使用体验,并有望推动高分辨率抠图研究的进一步发展。
原文和模型
【原文链接】 阅读原文 [ 1950字 | 8分钟 ]
【原文作者】 AI科技评论
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★☆☆