比人类便宜20倍!谷歌DeepMind推出「超人」AI系统

AIGC动态9个月前发布 AIera
815 0 0
比人类便宜20倍!谷歌DeepMind推出「超人」AI系统

 

文章摘要


【关 键 词】 AI同行评审事实核验DeepMind长文本检验成本效益

谷歌DeepMind最近提出了一种名为“搜索增强事实性评估器”(SAFE)的方法,旨在解决大型语言模型(LLM)在生成长篇回答时出现的幻觉问题。

SAFE通过使用其他LLM将答案文本分解为单个叙述,并利用方法如RAG来确定每个叙述的准确性,实现了AI对AI的同行评审。

研究人员首先使用GPT-4生成了一个名为LongFact的提示集,包含数千个问题,涵盖38个主题,并分为LongFact-Concepts和LongFact-Objects两个任务。

SAFE方法将长篇回复分解为一组单独的事实,并使用多步骤推理过程评估每个事实的准确性,包括使用网络搜索进行验证。

此外,研究还提出了一种新的聚合指标,以兼顾精度和召回率。

在实验中,SAFE在单个事实的准确性上与人类标注者的一致性达到了72.0%,并在分歧案例的重新评估中显示出比人类更高的正确率(76%对比19%)。

成本方面,SAFE的成本是人类标注者的1/20,显示出了显著的经济优势。

研究人员还在LongFact上对不同模型系列的13个语言模型进行了基准测试,发现较大的模型通常能实现更好的长格式事实性。

例如,GPT-4-Turbo、Gemini-Ultra和PaLM-2-L-IT-RLHF等超大型模型在测试中表现最佳。

同时,新模型系列如Gemini和Claude也在追赶GPT-4。

尽管SAFE在成本和准确性方面都显示出了优势,但也有声音指出,与人类事实核查员的比较需要更多的细节,例如他们的资格、薪酬和核查过程,以确保比较结果的公正性。

尽管如此,随着语言模型生成的信息量不断增长,拥有一种经济且可扩展的方式来进行事实核验将变得越来越重要。

这项研究的成果已在GitHub上开源,为未来的研究和应用提供了新的可能性。

原文和模型


【原文链接】 阅读原文 [ 1432字 | 6分钟 ]
【原文作者】 新智元
【摘要模型】 gpt-4
【摘要评分】 ★★★☆☆

© 版权声明
“绘蛙”

相关文章

暂无评论

暂无评论...