Ilya预言错了!华人Nature一作给RLHF「判死刑」,全球大模型都不可靠

AIGC动态3个月前发布 AIera
651 0 0
Ilya预言错了!华人Nature一作给RLHF「判死刑」,全球大模型都不可靠

 

文章摘要


【关 键 词】 语言模型不可靠性AI评估研究挑战提示敏感

剑桥大学等机构的研究人员在Nature上发表的论文中,对当前领先的大型语言模型(LLM)进行了全面评估,结果发现这些模型存在显著的不可靠性。研究团队对包括o1-preview在内的多个LLM进行了测试,揭示了它们在处理任务时的不一致性、回避行为和对提示词的敏感性。

研究结果显示,LLM在处理人类认为困难的任务时准确率较低,但它们能够在没有完全掌握简单任务的情况下完成更复杂的任务。这种不一致性导致人类难以确定在何种条件下可以信任这些模型。例如,o1系列模型在高难度实例上有所改进,但同时也加剧了人类预期与LLM能力之间的不一致性。

LLM在面对超出其能力范围的问题时,倾向于给出错误答案而不是回避。这种自信的态度导致错误率增加,尤其是在较新的LLM中。研究人员还发现,LLM对提示词的敏感性和稳定性存在问题,即使是在简单任务中,不同的提示词也可能导致模型输出错误的答案。

此外,研究还探讨了通过人类反馈强化学习(RLHF)来提高LLM可靠性的可能性。然而,结果表明RLHF并不能完全解决LLM的不可靠性问题。在人类难以判断的应用领域中,LLM往往表现出一种“不懂装懂”的态度,导致输出结果的可靠性下降。

研究人员Lexin Zhou强调,他的主要研究兴趣在于设计稳健的评估方法来评估AI的能力、局限性和风险,并寻找提高AI系统可靠性和可预测性的途径。他还对AI的社会影响、心理测量学、认知科学和AI安全性等领域表现出广泛兴趣。

为了进一步展示LLM的不可靠性,论文还提供了补充测评结果,包括难度不一致性、任务回避和提示稳定性方面的具体例子。这些例子表明,即使是经过微调的模型,也无法在简单任务上保持一致的表现,而且对提示词的变化非常敏感。

总体而言,这项研究揭示了大型语言模型在实际应用中可能存在的挑战,并对如何提高它们的可靠性提出了质疑。

“极客训练营”

原文和模型


【原文链接】 阅读原文 [ 2914字 | 12分钟 ]
【原文作者】 新智元
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★★

© 版权声明
“绘蛙”

相关文章

暂无评论

暂无评论...