GPT-4、Gemini同时被曝重大缺陷，逻辑推理大翻车！DeepMind上交校友团队发现LLM严重降智

AIGC动态1年前 (2024)发布 AIera

2,185 0 0

作者信息

【原文作者】 新智元
【作者简介】 智能+中国主平台，致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展，关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响，领航中国新智能时代。
【微信号】 AI_era

文章摘要

【关键词】 DeepMind、逻辑推理、大模型、性能影响、顺序效应

摘要：

谷歌DeepMind和斯坦福的研究人员发现，大模型在处理逻辑推理任务时，信息呈现的顺序对模型表现有显著影响。研究表明，当信息按逻辑顺序排列时，模型表现更佳。这一发现适用于逻辑和数学问题。例如，在证明任务中，如果条件按逻辑顺序呈现，大模型的成功率会显著提高。研究人员通过构建R-GSM测试集，进一步验证了这一现象。实验结果显示，改变前提顺序可导致模型准确率下降超过30%。此外，添加分散注意力的规则会加剧这种影响。研究还发现，不同的模型对不同顺序的偏好不同，且大模型对顺序效应更敏感。这一发现对于理解和改进大型语言模型的推理能力具有重要意义。

详细摘要：

背景与发现：
– 谷歌DeepMind和斯坦福研究人员发现大模型在逻辑推理任务中，信息呈现顺序对性能有决定性影响。
– 信息按逻辑顺序排列时，模型表现更佳，适用于逻辑和数学问题。
– 改变前提顺序，模型准确率可能下降30%以上。

实验与结果：
– 研究人员构建R-GSM测试集，通过打乱问题陈述顺序，观察模型性能变化。
– 实验涉及GPT-4、Gemini Pro、GPT-3.5等主流大模型。
– 结果显示，所有模型在R-GSM测试集上性能均下降，且对顺序效应更敏感。

影响因素：
– 规则数量和干扰规则数量影响模型性能。
– 不同模型对不同顺序的偏好不同，如GPT-4偏好后向顺序，而PaLM 2-L在反向排序下表现最差。

数学推理应用：
– R-GSM测试集在数学推理领域的应用进一步证实了顺序效应的存在。
– 问题复杂度分解显示，推理步骤多和问题句子多的问题，模型准确率降低。

讨论与结论：
– 尽管前提顺序不影响问题本质，但对大模型推理表现影响显著。
– 大模型在处理问题时，对前提顺序的偏好与人类相似，但更敏感。
– 研究为理解大型语言模型的推理能力提供了新视角，并指出了改进方向。

作者介绍：
– Xinyun Chen（陈昕昀）：Google DeepMind高级研究科学家，专注于大语言模型研究。
– Ryan A. Chi：斯坦福大学研究生，对NLP和AI在医疗领域的应用有丰富经验。