指令层级，帮助AI大模型防御恶意攻击

1,633 0 0

文章摘要

在AIGC领域，随着生成式AI产品如ChatGPT在多个领域的应用，其安全性问题日益凸显。黑客攻击和恶意文本提示等风险使得大语言模型（LLM）面临挑战。为此，OpenAI的研究人员提出了“指令层级”技术，以指导大模型在不同指令冲突时的应对策略。该技术将系统内置指令置于用户输入指令之上，用户指令又高于第三方工具，从而在指令冲突时优先执行高优先级指令。

OpenAI通过GPT-3.5 Turbo模型对指令层级进行了测试，结果表明该技术能显著提升大模型的鲁棒性（63%）和防御越狱攻击的能力（30%以上），且可应用于其他同类大模型。

指令层级的核心模块之一是合成数据指导，它为大模型训练提供样本，教会模型根据指令优先级进行选择，忽略低级别指令。例如，用户输入的文本提示会被分解为更小的指令片段，并放置在不同层次的指令优先级中进行训练。

上下文蒸馏是指令层级的另一核心模块，通过分析数据中的模式和关联，提取核心指令和信息。在预训练过程中，上下文蒸馏帮助模型识别重要输入，提高安全决策能力。研究人员定义了清晰的指令层级，将系统消息、用户输入和第三方工具输出按重要性排序。

通过上下文蒸馏，大模型被训练以识别和忽略与高优先级指令不一致或冲突的低优先级指令。例如，在高级指令要求模型拒绝非法问题时，模型会选择忽略要求输出隐私信息的低级指令。此外，上下文蒸馏还提高了模型的泛化能力，使其能够识别和处理新的安全威胁。