复旦大学团队提出跨模态越狱防御新架构 BlueSuffix

复旦大学团队提出跨模态越狱防御新架构 BlueSuffix

 

文章摘要


【关 键 词】 多模态安全防御强化微调跨模态攻击防御

复旦大学联合香港城市大学、新加坡管理大学的研究团队在视觉-语言模型安全防御领域取得重要进展,提出了一种基于强化微调的黑盒防御新架构——BlueSuffix。该架构旨在解决多模态大模型在实际应用中的安全性和可靠性问题,特别是在跨模态越狱攻击日益凸显的背景下。BlueSuffix通过结合图像和文本防御技术,显著提升了模型对跨模态攻击的防御能力,同时保持了良性样本的性能。

多模态大模型的广泛应用带来了跨模态鲁棒性问题,尤其是跨模态越狱攻击的威胁。现有防御方法分为白盒和黑盒两类,但各有局限性。白盒防御虽能直接访问模型参数,但应用场景受限且算力需求高;黑盒防御虽不依赖模型内部结构,但未能充分利用跨模态信息,且对良性样本的回复效果影响较大。BlueSuffix的创新之处在于其双模态协同防御机制,通过视觉和文本净化器进行初步防御,随后通过强化微调技术优化语言模型生成蓝队后缀,显著提升了防御能力。

BlueSuffix由三部分组成:基于扩散模型的图像净化器、基于大语言模型的文本净化器以及基于大语言模型的蓝队后缀生成器。图像净化器和文本净化器不仅帮助后缀生成器进行进一步防御,还降低了对良性样本回复效果的负面影响。实验表明,BlueSuffix在防御效果、模型迁移性和鲁棒性方面表现出优越性能。在4个主流视觉-语言模型和4个基准数据集上的系统性评估中,BlueSuffix对多种典型攻击方法的防御成功率达到了100%,即使面对当前最先进的跨模态攻击BAP Attack,其防御效果也远超现有方法。

此外,BlueSuffix在开源和商业视觉-语言模型上均表现出优异的迁移能力,分别将BAP Attack的攻击成功率降低了约70%和50%。这一结果证明了该方法的广泛适用性。在自适应攻击场景下,BlueSuffix仍能保持稳定的防御性能,展现了其在实际应用中的可靠性。

研究团队的主要贡献在于提出了基于强化微调的黑盒防御新架构BlueSuffix,以及基于强化学习微调的跨模态优化方法。BlueSuffix的模块化设计使其能够灵活整合现有图像与文本模态的防御方法,为多模态大模型安全防御提供了通用解决方案。通过结合文本与视觉模态信息,将轻量级语言模型微调为蓝队后缀生成器,BlueSuffix在保持模型原有对齐性能的同时,显著降低了对良性样本回复效果的影响。这一突破性方法为多模态大模型的安全防御开辟了新方向。

原文和模型


【原文链接】 阅读原文 [ 1382字 | 6分钟 ]
【原文作者】 AI科技评论
【摘要模型】 deepseek-v3
【摘要评分】 ★★★☆☆

© 版权声明
“绘蛙”

相关文章

“极客训练营”

暂无评论

暂无评论...