揭秘多轮越狱攻击新框架:RACE 如何利用大模型推理能力突破安全防线?

AIGC动态18小时前发布 aitechtalk
86 0 0
揭秘多轮越狱攻击新框架:RACE 如何利用大模型推理能力突破安全防线?

 

文章摘要


【关 键 词】 大模型安全越狱攻击对抗攻击推理能力安全机制

来自北京航空航天大学等机构的研究团队提出RACE多轮越狱攻击框架,通过将有害查询转化为良性推理任务,成功突破多个主流大模型的安全防线。实验结果显示,该框架对OpenAI o1和DeepSeek R1模型的攻击成功率分别达到82%和92%,整体攻击成功率高达96%,揭示了大模型安全机制存在的重大漏洞。

RACE框架的核心创新在于利用大模型自身的推理能力实现攻击。其核心模块攻击状态机(ASM)将攻击过程系统化建模为多阶段状态转换,通过语义和逻辑驱动对话流程,有效解决了传统方法在语义连贯性与攻击有效性之间的平衡难题。增益引导探索(GE)模块采用信息增益优化查询选择策略,确保每次对话都能最大化推进攻击目标。自我对弈(SP)模块通过影子模型模拟拒绝响应,提前优化查询结构以规避安全检测,而拒绝反馈(RF)模块则能在触发安全机制时快速生成替代推理任务。

研究发现,模型的推理能力与其安全风险呈现正相关趋势。具有更强推理能力的模型如DeepSeek R1,在RACE攻击下的成功率高达92%,显著高于基础模型的攻击效果。这一现象表明,当前基于规则和浅层语义检测的安全对齐技术,难以应对通过复杂推理逻辑构建的越狱攻击。实验还显示,现有防御机制对RACE的防护效果有限,即使采用Self-Reminder防御策略,攻击成功率降幅也仅为17.6%。

该研究揭示了大模型安全机制设计中的深层次矛盾:提升模型推理能力的同时可能放大安全风险敞口。RACE框架通过将恶意意图嵌入多步推理任务,成功绕过了基于单轮检测的防护体系,暴露出当前安全对齐技术对复杂逻辑链攻击的脆弱性。研究团队在论文中刻意隐去具体攻击细节以防止滥用,同时提出需要开发新型防御机制,特别是针对推理过程的多层次监控技术。

面向未来,研究团队计划从攻防对抗角度优化RACE框架,探索基于对抗训练的防御方案。研究建议将安全防护前置到模型训练阶段,通过增强对逻辑推理链的鲁棒性检测,构建动态演进的防御体系。该成果不仅为越狱攻击研究提供了新范式,也为大模型安全评测体系的完善提出了紧迫需求,强调需要在模型能力提升与安全风险控制之间建立更精细的平衡机制。

原文和模型


【原文链接】 阅读原文 [ 1917字 | 8分钟 ]
【原文作者】 AI科技评论
【摘要模型】 deepseek-r1
【摘要评分】 ★★★★☆

© 版权声明
“绘蛙”

相关文章

“极客训练营”

暂无评论

暂无评论...