文章摘要
【关 键 词】 心智理论、LLM能力、基准测试、递归推理、GPT-4表现
研究揭示了在心智理论任务上,大型语言模型(LLM)已达到与人类相近的水平,尤其在更高阶的心智推理上,某些模型甚至超越了人类的表现。具体而言,GPT-4在第六阶的心智理论任务上的准确率达到93%,而人类为82%。这表明,GPT-4不仅能够理解复杂的语言表达,还在推理他人的心理状态上展现出较强的能力。
此次研究引入了一项新的基准测试——多阶心智理论问答(MoToMQA),旨在衡量LLM在递归推理方面的能力。这项测试基于经过验证的记忆任务,并涵盖了2至6阶的心智理论陈述和事实陈述。研究人员精心设计了测试,以确保陈述清晰且无歧义,同时控制故事条件和提示设计,以减少记忆失败或锚定效应的影响。
研究结果表明,在ToM任务上,GPT-4和Flan-PaLM模型表现接近人类,某些条件下甚至更好。特别是GPT-4在第6阶的推理上显著优于人类。在事实任务上,GPT-4和Flan-PaLM同样表现出色,与人类的表现差异不大。
此外,研究还发现响应选项的顺序对LLM的回答有影响,但对于Flan-PaLM、GPT-4和人类来说,这种影响并不显著。值得注意的是,LaMDA模型在所有条件下对所有陈述的回答均为“真”,这表明它未能有效地处理心智理论任务。
总体来看,这些发现标志着在理解复杂的心智理论上,LLM已经取得了显著的进步,并为未来的研究提供了新的方向和挑战。
原文和模型
【原文链接】 阅读原文 [ 5639字 | 23分钟 ]
【原文作者】 新智元
【摘要模型】 glm-4
【摘要评分】 ★★★★★
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...