ICLR 2024 | 无需训练，Fast-DetectGPT让文本检测速度提升340倍

AIGC动态1年前 (2024)发布 almosthuman2014

2,662 0 0

模型信息

【模型公司】 Anthropic
【模型名称】 claude-3-opus-20240229
【摘要评分】 ★★★★★

文章摘要

以下是使用HTML元素标记的重点词语和句子:

近年来大语言模型的快速发展对人类社会产生了深远影响,但其误用也带来了虚假信息、剽窃等问题。现有的机器生成文本检测方法存在准确率不高、速度慢、无法检测未知模型生成文本等缺陷。为此,本文提出了一种新的零样本检测方法Fast-DetectGPT。

Fast-DetectGPT基于一个新颖的假设,即人类和机器在文本生成过程中对词汇的选择存在明显差异。人类的选择更加多样化,而机器更倾向于选择高概率词汇。在这个假设的基础上,作者提出了条件概率曲率指标,用于区分机器生成文本和人类撰写文本。实验表明,人类文本和机器生成文本在该指标上呈现出明显不同的正态分布,几乎没有重叠。

Fast-DetectGPT的检测流程包括三个步骤:采样、打分和比较。首先使用采样模型生成候选样本,然后用打分模型对原文本和样本计算条件概率,最后比较两者的条件概率曲率。实验证明采样和打分可以合并为一步,大大提高了计算效率。

在速度方面,Fast-DetectGPT比现有方法DetectGPT快340倍。在准确率方面,它在检测ChatGPT和GPT-4生成的文本上超过了DetectGPT 75%以上,整体表现也优于现有的商业模型和有监督模型。此外,Fast-DetectGPT能在低误报率下实现高召回率,对长文本的检测效果也随着长度增加而提高,展现出良好的鲁棒性。

总之,Fast-DetectGPT通过引入条件概率曲率指标,在DetectGPT的基础上大幅提升了检测速度和准确率,为实际应用扫清了障碍。未来还可以进一步拓展该方法,用于作者识别、OOD检测等任务。Fast-DetectGPT为机器生成文本检测这一重要问题提供了新的思路和高效的解决方案。