长文本之罪：Claude团队新越狱技术，Llama 2到GPT-4无一幸免

AIGC动态1年前 (2024)发布 almosthuman2014

3,330 0 0

文章摘要

【关键词】 越狱漏洞、缓解方案、语言模型、上下文学习、安全护栏

Anthropic公司最近发现了一种新型的“越狱”技术，这种技术能够让攻击者绕过大型语言模型（LLM）的安全限制。

这种越狱技术被称为“Many-shot Jailbreaking”，它通过输入包含有害请求的虚假对话提示，迫使LLM产生潜在有害的反应。

研究表明，这种攻击对多个知名AI公司的模型都有效，包括Anthropic自家的Claude 2.0、OpenAI的GPT-3.5和GPT-4、Google DeepMind的Llama 2 (70B)和Mistral 7B等。

攻击者利用的是LLM的上下文窗口漏洞。随着技术的发展，LLM处理的上下文窗口长度已经从约4,000个token增加到相当于几本长篇小说的长度（1,000,000个token或更多）。

这种上下文长度的增加，虽然提高了模型的性能，但同时也带来了越狱风险。研究发现，随着对话次数的增加，LLM产生有害反应的概率也随之增加。

研究还指出，many-shot越狱的有效性与LLM的“上下文学习”过程有关。上下文学习是指LLM仅使用提示中提供的信息进行学习，无需任何后续微调。这种学习过程遵循与many-shot越狱相同的统计模式。

此外，对于较大的模型，many-shot越狱通常更有效，这意味着需要更短的提示就能产生有害响应。

为了缓解这一问题，Anthropic提出了一种基于提示修改的缓解措施，这种方法在将提示传递给模型之前对其进行分类和修改。其中一项技术显著降低了many-shot越狱的效率，将攻击成功率从61%降至了2%。

Anthropic正在继续研究这些缓解措施，并保持对可能逃避检测的攻击变体的警惕。

最后，机器之心还宣布了即将在北京海淀举办的AI技术论坛，聚焦于视频生成技术、多模态大模型等前沿领域的技术突破和应用实践，旨在帮助企业和从业者紧跟技术发展潮流。

原文和模型

【原文链接】 阅读原文 [ 1809字 | 8分钟 ]
【原文作者】 机器之心
【摘要模型】 gpt-4
【摘要评分】 ★★★★☆

OpenAI GPT-4

GPT-4是OpenAI公司开发的自然...

# AIGC动态 # GPT-GPTs # 大模型 # 视频生成 # Azure # gpt-4 # 上下文学习 # 安全护栏 # 机器之心 # 缓解方案 # 语言模型 # 越狱漏洞

文章版权归作者所有，未经允许请勿转载。

Dolly：120亿参数的大型语言模型，你的AI智能助手。

admin

1,981

清华姚班本科生连发两作，十年来最大改进：矩阵乘法接近理论最优

机器之心

2,359

现场围观 | 黄仁勋对话Transformer论文作者：世界该给Tranformer翻篇了

硅星人Pro

1,877

AI下一个重大飞跃是理解情感！第一个具有情商的对话型AI来了

新智元

2,500

AI行业一天发生10件大事：GPT-5 Turbo来了？最强大GPT人形机器人爆火；全球最大 AI 芯片来了｜钛媒体AGI

钛媒体AGI

1,999

全球百模争霸，国产大模型拿下多个冠军！智源FlagEval全球评测榜单出炉

新智元

1,909

暂无评论

暂无评论...

长文本之罪：Claude团队新越狱技术，Llama 2到GPT-4无一幸免

文章摘要

原文和模型

月之暗面 Kimi 智能助手实现 200 万字长上下文，火山引擎提供云服务支持

国内首个音乐版「ChatGPT」来了！Sora同款架构，唱作技巧全面发展，还剧透了全新MoE大模型

相关文章

暂无评论

热门网址

热门文章

长文本之罪：Claude团队新越狱技术，Llama 2到GPT-4无一幸免

文章摘要

原文和模型

月之暗面 Kimi 智能助手实现 200 万字长上下文，火山引擎提供云服务支持

国内首个音乐版「ChatGPT」来了！Sora同款架构，唱作技巧全面发展，还剧透了全新MoE大模型

相关文章

暂无评论

Trac-AI IDE

极客训练营-扫码领取免费材料

讯飞文书-办公助手

热门网址

热门文章