Ilya预言错了！华人Nature一作给RLHF「判死刑」，全球大模型都不可靠

2,342 0 0

文章摘要

剑桥大学等机构的研究人员在Nature上发表的论文中，对当前领先的大型语言模型（LLM）进行了全面评估，结果发现这些模型存在显著的不可靠性。研究团队对包括o1-preview在内的多个LLM进行了测试，揭示了它们在处理任务时的不一致性、回避行为和对提示词的敏感性。

研究结果显示，LLM在处理人类认为困难的任务时准确率较低，但它们能够在没有完全掌握简单任务的情况下完成更复杂的任务。这种不一致性导致人类难以确定在何种条件下可以信任这些模型。例如，o1系列模型在高难度实例上有所改进，但同时也加剧了人类预期与LLM能力之间的不一致性。

LLM在面对超出其能力范围的问题时，倾向于给出错误答案而不是回避。这种自信的态度导致错误率增加，尤其是在较新的LLM中。研究人员还发现，LLM对提示词的敏感性和稳定性存在问题，即使是在简单任务中，不同的提示词也可能导致模型输出错误的答案。

此外，研究还探讨了通过人类反馈强化学习（RLHF）来提高LLM可靠性的可能性。然而，结果表明RLHF并不能完全解决LLM的不可靠性问题。在人类难以判断的应用领域中，LLM往往表现出一种“不懂装懂”的态度，导致输出结果的可靠性下降。

研究人员Lexin Zhou强调，他的主要研究兴趣在于设计稳健的评估方法来评估AI的能力、局限性和风险，并寻找提高AI系统可靠性和可预测性的途径。他还对AI的社会影响、心理测量学、认知科学和AI安全性等领域表现出广泛兴趣。

为了进一步展示LLM的不可靠性，论文还提供了补充测评结果，包括难度不一致性、任务回避和提示稳定性方面的具体例子。这些例子表明，即使是经过微调的模型，也无法在简单任务上保持一致的表现，而且对提示词的变化非常敏感。

总体而言，这项研究揭示了大型语言模型在实际应用中可能存在的挑战，并对如何提高它们的可靠性提出了质疑。

原文和模型

【原文链接】 阅读原文 [ 2914字 | 12分钟 ]
【原文作者】 新智元
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★★

Moonshot AI

月之暗面是一家 AI 初创大模...

# AIGC动态 # 大模型 # AI评估 # 不可靠性 # 提示敏感 # 研究挑战 # 语言模型

文章版权归作者所有，未经允许请勿转载。

LLaMA-2-7B数学能力上限已达97.7%？Xwin-Math利用合成数据解锁潜力

机器之心

1,757

《Python机器学习》作者科普长文：从头构建类GPT文本分类器，代码开源

机器之心

1,964

从 0 到 1 了解大模型安全，看这篇就够了

admin

10,799

大模型权威测试被曝翻车！更偏袒GPT-4等闭源模型，连提示词都区别对待

量子位

2,472

重磅！OpenAI发布满血o1、无限使用，最强大模型来了

AIGC开放社区

1,228

全面打破GPT-4垄断、DeepSeek打下训练成本…2024年大模型领域进展全复盘

机器之心

1,563

暂无评论

暂无评论...

Ilya预言错了！华人Nature一作给RLHF「判死刑」，全球大模型都不可靠

文章摘要

原文和模型

OpenAI创始成员Andrej Karpathy：这才是技术之美

陶哲轩全网悬赏「最强大脑」！AI+人类颠覆数学难题？凡尔赛网友已下场

相关文章

暂无评论

热门网址

热门文章

Ilya预言错了！华人Nature一作给RLHF「判死刑」，全球大模型都不可靠

文章摘要

原文和模型

OpenAI创始成员Andrej Karpathy：这才是技术之美

陶哲轩全网悬赏「最强大脑」！AI+人类颠覆数学难题？凡尔赛网友已下场

相关文章

暂无评论

Trac-AI IDE

极客训练营-扫码领取免费材料

讯飞文书-办公助手

热门网址

热门文章