DeepMind终结大模型幻觉？标注事实比人类靠谱、还便宜20倍，全开源

AIGC动态2年前 (2024)发布 almosthuman2014

3,000 0 0

文章摘要

【关键词】 DeepMind、大语言模型、事实性评估、SAFE、LongFact

DeepMind最近提交的一篇论文《Long-form factuality in large language models》引发了热议。

该论文提出了一种新的方法，可以对大语言模型的长篇事实性进行评估和基准测试，这种方法被称为搜索增强事实评估器（Search-Augmented Factuality Evaluator，SAFE）。

这项研究的目标是解决大语言模型在响应开放式主题的事实寻求提示时，可能会生成包含事实错误的内容的问题。

研究者首先使用GPT-4生成了一个名为LongFact的提示集，该集合包含38个主题和数千个问题。

然后，他们使用SAFE将LLM智能体用作长篇事实性的自动评估器。

SAFE的工作原理是利用LLM将长篇响应分解为一组单独的事实，并使用多步推理过程来评估每个事实的准确性。

这个多步推理过程包括将搜索查询发送到Google搜索并确定搜索结果是否支持某个事实。

此外，研究者还提出了一种新的聚合指标，即将F1分数扩展为长篇事实性的聚合指标。

他们平衡了响应中支持的事实的百分比（精度）和所提供事实相对于代表用户首选响应长度的超参数的百分比（召回率）。

实验结果表明，LLM智能体可以实现超越人类的评级性能。

在一组约16k个单独的事实上，SAFE在72%的情况下与人类注释者一致，并且在100个分歧案例的随机子集上，SAFE的赢率为76%。

同时，SAFE的成本比人类注释者便宜20倍以上。

研究者还使用LongFact对四个大模型系列（Gemini、GPT、Claude 和 PaLM-2）的13种流行的语言模型进行了基准测试，结果发现较大的语言模型通常可以实现更好的长篇事实性。

这项研究的结果表明，对于负担得起的人来说，大语言模型的幻觉不再是问题。

这也可能意味着人类标注者的工作可能会受到影响，因为机器可以以更低的成本提供更高的准确性。

然而，这也为未来的研究提供了新的工具和方法，可以更准确地评估和改进大语言模型的性能。

原文和模型

【原文链接】 阅读原文 [ 1867字 | 8分钟 ]
【原文作者】 机器之心
【摘要模型】 gpt-4-32k
【摘要评分】 ★★★★☆

OpenAI GPT-4

GPT-4是OpenAI公司开发的自然...

# AIGC动态 # GPT-GPTs # 大模型 # Azure # DeepMind # gpt-4-32k # LongFact # SAFE # 事实性评估 # 大语言模型 # 机器之心

文章版权归作者所有，未经允许请勿转载。

每天免费100万token，GPT-4o新增微调功能

AIGC开放社区

2,879

详解Latte：去年底上线的全球首个开源文生视频DiT

机器之心

3,197

李飞飞主讲，斯坦福2024 CS231n开课，依旧座无虚席

机器之心

3,348

全面超越GPT-4，Claude 3终于来了，有大学生智商，支持百万token

机器之心

2,741

聊聊 Kimi Chat 的种草现象

硅星人Pro

3,151

80M参数打平GPT-4！苹果发超强上下文理解模型，聪明版Siri马上就来

新智元

3,945

暂无评论

暂无评论...

DeepMind终结大模型幻觉？标注事实比人类靠谱、还便宜20倍，全开源

文章摘要

原文和模型

后汤晓鸥时代的商汤，何去何从？

台积电董事长预测：未来15年每瓦GPU性能提升1000倍，GPU晶体管数破万亿！

相关文章

暂无评论

热门网址

热门文章

DeepMind终结大模型幻觉？标注事实比人类靠谱、还便宜20倍，全开源

文章摘要

原文和模型

后汤晓鸥时代的商汤，何去何从？

台积电董事长预测：未来15年每瓦GPU性能提升1000倍，GPU晶体管数破万亿！

相关文章

暂无评论

Trac-AI IDE

星辰Agent

讯飞文书-办公助手

热门网址

热门文章