标签:越狱攻击
揭秘多轮越狱攻击新框架:RACE 如何利用大模型推理能力突破安全防线?
来自北京航空航天大学等机构的研究团队提出RACE多轮越狱攻击框架,通过将有害查询转化为良性推理任务,成功突破多个主流大模型的安全防线。实验结果显示,该...
从 0 到 1 了解大模型安全,看这篇就够了
本文主要介绍了大型语言模型(LLM)的安全性研究。首先,作者解释了LLM的发展历程,包括BERT、T5和ChatGPT等模型的演变。接着,文章讨论了大模型的安全性挑战...