比人类便宜20倍！谷歌DeepMind推出「超人」AI系统

AIGC动态2年前 (2024)发布 AIera

2,397 0 0

文章摘要

【关键词】 AI同行评审、事实核验、DeepMind、长文本检验、成本效益

谷歌DeepMind最近提出了一种名为“搜索增强事实性评估器”（SAFE）的方法，旨在解决大型语言模型（LLM）在生成长篇回答时出现的幻觉问题。

SAFE通过使用其他LLM将答案文本分解为单个叙述，并利用方法如RAG来确定每个叙述的准确性，实现了AI对AI的同行评审。

研究人员首先使用GPT-4生成了一个名为LongFact的提示集，包含数千个问题，涵盖38个主题，并分为LongFact-Concepts和LongFact-Objects两个任务。

SAFE方法将长篇回复分解为一组单独的事实，并使用多步骤推理过程评估每个事实的准确性，包括使用网络搜索进行验证。

此外，研究还提出了一种新的聚合指标，以兼顾精度和召回率。

在实验中，SAFE在单个事实的准确性上与人类标注者的一致性达到了72.0%，并在分歧案例的重新评估中显示出比人类更高的正确率（76%对比19%）。

成本方面，SAFE的成本是人类标注者的1/20，显示出了显著的经济优势。

研究人员还在LongFact上对不同模型系列的13个语言模型进行了基准测试，发现较大的模型通常能实现更好的长格式事实性。

例如，GPT-4-Turbo、Gemini-Ultra和PaLM-2-L-IT-RLHF等超大型模型在测试中表现最佳。

同时，新模型系列如Gemini和Claude也在追赶GPT-4。

尽管SAFE在成本和准确性方面都显示出了优势，但也有声音指出，与人类事实核查员的比较需要更多的细节，例如他们的资格、薪酬和核查过程，以确保比较结果的公正性。

尽管如此，随着语言模型生成的信息量不断增长，拥有一种经济且可扩展的方式来进行事实核验将变得越来越重要。

这项研究的成果已在GitHub上开源，为未来的研究和应用提供了新的可能性。

原文和模型

【原文链接】 阅读原文 [ 1432字 | 6分钟 ]
【原文作者】 新智元
【摘要模型】 gpt-4
【摘要评分】 ★★★☆☆

OpenAI GPT-4

GPT-4是OpenAI公司开发的自然...

# AIGC动态 # GPT-GPTs # 大模型 # AI同行评审 # Azure # DeepMind # gpt-4 # 事实核验 # 成本效益 # 新智元 # 长文本检验

文章版权归作者所有，未经允许请勿转载。

工业机器人，因为 AI 迎来「智能时代」

极客公园

3,282

这些公司，是怎么用亚马逊云科技的生成式 AI 横扫海外的

极客公园

2,550

年度大戏！马斯克首曝秘密邮件怒斥Altman背叛，OpenAI回应称他就是后悔了

新智元

3,178

GPTs大翻车后，OpenAI再宣布给开发者送钱！美国码农狂欢

新智元

2,318

7人创业、1人投敌！Transformer 八子谷歌坐冷板凳5年再成老黄座上宾

AI前线

2,950

AI有了联想，世界将会怎样？

量子位

2,965

暂无评论

暂无评论...

比人类便宜20倍！谷歌DeepMind推出「超人」AI系统

文章摘要

原文和模型

投资人烦死 Sam Altman 了

ChatGPT和Sora其实限制了我们对大模型的想象？

相关文章

暂无评论

热门网址

热门文章

比人类便宜20倍！谷歌DeepMind推出「超人」AI系统

文章摘要

原文和模型

投资人烦死 Sam Altman 了

ChatGPT和Sora其实限制了我们对大模型的想象？

相关文章

暂无评论

Trac-AI IDE

星辰Agent

讯飞文书-办公助手

热门网址

热门文章