GPT-4、Gemini同时被曝重大缺陷,逻辑推理大翻车!DeepMind上交校友团队发现LLM严重降智

AIGC动态4个月前发布 AIera
352 0 0

作者信息


【原文作者】 新智元
【作者简介】 智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。
【微 信 号】 AI_era

GPT-4、Gemini同时被曝重大缺陷,逻辑推理大翻车!DeepMind上交校友团队发现LLM严重降智
 

文章摘要


【关 键 词】 DeepMind逻辑推理大模型性能影响顺序效应

摘要:

谷歌DeepMind和斯坦福的研究人员发现,大模型在处理逻辑推理任务时,信息呈现的顺序对模型表现有显著影响。研究表明,当信息按逻辑顺序排列时,模型表现更佳。这一发现适用于逻辑和数学问题。例如,在证明任务中,如果条件按逻辑顺序呈现,大模型的成功率会显著提高。研究人员通过构建R-GSM测试集,进一步验证了这一现象。实验结果显示,改变前提顺序可导致模型准确率下降超过30%。此外,添加分散注意力的规则会加剧这种影响。研究还发现,不同的模型对不同顺序的偏好不同,且大模型对顺序效应更敏感。这一发现对于理解和改进大型语言模型的推理能力具有重要意义。

详细摘要:

背景与发现:
– 谷歌DeepMind和斯坦福研究人员发现大模型在逻辑推理任务中,信息呈现顺序对性能有决定性影响。
– 信息按逻辑顺序排列时,模型表现更佳,适用于逻辑和数学问题。
– 改变前提顺序,模型准确率可能下降30%以上。

实验与结果:
– 研究人员构建R-GSM测试集,通过打乱问题陈述顺序,观察模型性能变化。
– 实验涉及GPT-4、Gemini Pro、GPT-3.5等主流大模型。
– 结果显示,所有模型在R-GSM测试集上性能均下降,且对顺序效应更敏感。

影响因素:
– 规则数量和干扰规则数量影响模型性能。
– 不同模型对不同顺序的偏好不同,如GPT-4偏好后向顺序,而PaLM 2-L在反向排序下表现最差。

数学推理应用:
– R-GSM测试集在数学推理领域的应用进一步证实了顺序效应的存在。
– 问题复杂度分解显示,推理步骤多和问题句子多的问题,模型准确率降低。

讨论与结论:
– 尽管前提顺序不影响问题本质,但对大模型推理表现影响显著。
– 大模型在处理问题时,对前提顺序的偏好与人类相似,但更敏感。
– 研究为理解大型语言模型的推理能力提供了新视角,并指出了改进方向。

作者介绍:
– Xinyun Chen(陈昕昀):Google DeepMind高级研究科学家,专注于大语言模型研究。
– Ryan A. Chi:斯坦福大学研究生,对NLP和AI在医疗领域的应用有丰富经验。

原文信息


【原文链接】 阅读原文
【原文字数】 3923
【阅读时长】 14分钟

© 版权声明
讯飞星火大模型

相关文章

星火内容运营大师

暂无评论

暂无评论...