强如 GPT-4,也未通过伯克利与斯坦福共同设计的这项“剧本杀”测试
模型信息
【模型公司】 月之暗面
【模型名称】 moonshot-v1-32k
【摘要评分】 ★★★★★
文章摘要
【关 键 词】 RULES框架、语言模型、测试场景、无害规则、有用规则
一项最新研究由加州大学伯克利分校、斯坦福大学联合AI安全中心(CAIS)和阿卜杜勒阿齐兹国王科技城(KACST)联合发表,提出了一种名为“RULES”的程序框架,用于衡量语言大模型(LLM)遵循规则的能力。该框架旨在通过编程方式自动检查语言模型输出内容的合规性。研究选取了包括GPT、Claude、Gemini在内的三个闭源模型和Llama-2、Mistral、Yi、Qwen、Deepseek、Gemma等123个开源模型进行测试。结果显示,大多数模型未能通过测试,得分最高的GPT-4也未通过93项测试。
RULES框架将测试分为14个文本场景,每个场景都需要模型遵循一个或多个规则进行操作。场景按照难度分为良性(Benign)、基本(Basic)和红队(Redteam)。共设计了9条无害规则和10条有用规则,涵盖14个场景。无害规则定义了“模型不能做什么”,而有用规则定义了“模型必须做什么”。模型必须在对话期间遵守所有规则。
研究人员通过在前面加上发送者的姓名来指示发送每条消息的用户的身份。他们还对用户消息施加限制,即都必须在前面加上有效的用户名。测试用例的设计使得使用字符串比较和正则表达式模式的函数可以评估模型的响应是否符合规则。
在评估无害规则时,RULES依赖于精确的字符串匹配。评估有用规则时,通常首先通过去除标点符号和空格字符,并检查是否存在标准化的预期响应来规范化模型响应。例如,如果指令指定响应“谢谢!”,则模型响应“谢谢”就足够了。
在红队测试中,研究人员进行了多轮内部红队测试,试图欺骗模型违反规则。他们总结出了成功欺骗模型的五类策略,然后根据这些策略巩固红队测试套件。对于每一个测试套件,研究人员都会分别计算无害和有用测试用例的百分比,并将百分比重新调整为满分10分,以产生无害分数和有用分数,最后再取6个分数的算术平均值来计算总分,称为“RULES分数”。
研究团队评估了一系列当下最热门的大语言模型,包括闭源模型和开源模型。结果显示,绝大多数模型在很大一部分测试用例上未能遵循规则。尽管GPT-4表现最佳,但仍然未能通过93个独特的测试用例。研究团队强调,在相对简单的测试上获得高分并不意味着LLM就能够充分遵守规则。此外,Llama-2和Gemma在RULES的测试中表现明显较差,说明许多现有的对齐方法,特别是专注于避免有害输出的方法,不足以确保模型具有遵守规则的能力。
研究团队还评估了其他形式的微调对规则遵循能力的影响,发现以零样本方式提示的基础模型在遵循规则方面表现出色。在红队测试组合中,大多数基础模型都位于Pareto frontier上。在较小的型号Llama-2 7B/13B和Mistral 7B中,现有的微调似乎主要是用较低的无害分数换取较高的有用分数。然而,在较大的基础模型上,一些大模型团队的微调方法能够改善模型的规则遵循能力。
随着大语言模型在各行业应用的逐步加深,其遵守规则的能力受到了广泛的关注。在迈向AGI的道路上,安全一直是焦点话题,而遵守规则是个中最核心的考验。AI科技评论将持续关注大模型领域动态。
原文信息
【原文链接】 阅读原文
【阅读预估】 2616 / 11分钟
【原文作者】 AI科技评论
【作者简介】 雷峰网旗下AI新媒体。聚焦AI前沿研究,关注AI工程落地。