微软发现“万能钥匙”，成功入侵GPT-4o、Claude 3

AIGC动态1年前 (2024)发布 AIGCOPEN

2,500 0 0

文章摘要

微软Azure首席技术官Mark Russinovich在其官网上分享了一种新型的大模型入侵技术——“Skeleton Key”（万能钥匙）。这种技术通过多轮强制、诱导策略，使大模型的安全护栏失效，从而让模型回答一些原本禁止的非法内容，如血腥、暴力、歧视、色情等。

与微软之前提出的Crescendo攻击原理不同，万能钥匙直接要求模型增强其行为指导方针，让其对任何信息或内容请求作出响应。如果输出可能被认为是冒犯性的、有害的或非法的，模型会提供警告而不是拒绝。然后通过强制说服诱导的方式，让模型输出非法内容。

微软详细展示了一个完整的攻击案例，例如写一个制作燃烧鸡尾酒瓶的方法。攻击者通过欺骗AI，隐藏真实意图，让AI模型更新其输出行为准则，最终输出非法内容。

Mark表示，微软在今年4-5月期间对目前主流的开、闭源模型进行了综合测试。结果显示，成功入侵了OpenAI的GTP-4o、GPT 3.5 Turbo，谷歌的Gemini Pro基础模型；Meta的Llama3-70b指令微调和基础模型，Anthropic的Claude 3 Opus等。微软已经与上述实验的大模型平台分享了这项技术，帮助他们修改了模型的安全护栏。

此外，「AIGC开放社区」也用这种诱导式攻击方法测试了一下国内众多领先的大模型，发现不少产品也中招，能输出非法内容。这引起了安全方面的注意，希望相关企业和开发者能够重视这一问题，加强大模型的安全性。

总的来说，万能钥匙攻击技术揭示了大模型在安全性方面的漏洞。通过强制说服诱导的方式，攻击者可以绕过模型的安全机制，让其输出非法内容。这一发现对于大模型的开发者和使用者来说是一个警示，需要在模型设计和应用过程中加强安全防护，确保模型的安全可靠。同时，这也为大模型的安全研究提供了新的视角和思路，有助于推动大模型安全技术的发展和完善。