提升生成式零样本学习能力，视觉增强动态语义原型方法入选CVPR 2024

AIGC动态1年前 (2024)发布 almosthuman2014

3,234 0 0

模型信息

【模型公司】 月之暗面
【模型名称】 moonshot-v1-32k
【摘要评分】 ★★★★★

文章摘要

华中科技大学研究生与阿里巴巴旗下银泰商业集团的技术专家提出了一种名为视觉增强的动态语义原型方法（VADS），以提高生成式零样本学习（GZSL）的性能。VADS通过充分利用已见类的视觉特征，优化生成器的训练过程，从而提高模型的泛化能力和识别未见类的能力。研究论文已被计算机视觉顶级国际学术会议CVPR 2024接收。

VADS方法包含两个模块：视觉感知域知识学习模块（VDKL）和面向视觉的语义更新模块（VOSU）。VDKL模块通过视觉编码器和域知识学习网络学习视觉特征的局部偏差和全局先验，提供更丰富的先验噪声信息。VOSU模块则通过视觉语义预测器和语义更新映射网络，根据样本的视觉表示更新其语义原型。

实验结果表明，VADS方法在常用的零样本学习数据集上实现了显著的性能提升，并且可以与其他生成式零样本学习方法结合，获得精度的普遍提升。此外，VADS方法在智能安防领域具有潜在价值，有助于提高安全性、减少对样本数据的依赖以及提升动态环境下的稳定性。

研究者认为，生成式零样本学习的核心思想与当前多模态大模型中的视觉语言模型（如CLIP）的研究目标一致。尽管两者在应用范围和训练方式上有所不同，但在特定领域中，VADS方法可以为大模型的发展提供有益的启发。