作者信息
【原文作者】 新智元
【作者简介】 智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。
【微 信 号】 AI_era
文章摘要
【关 键 词】 DeepMind、逻辑推理、大模型、性能影响、顺序效应
摘要:
谷歌DeepMind和斯坦福的研究人员发现,大模型在处理逻辑推理任务时,信息呈现的顺序对模型表现有显著影响。研究表明,当信息按逻辑顺序排列时,模型表现更佳。这一发现适用于逻辑和数学问题。例如,在证明任务中,如果条件按逻辑顺序呈现,大模型的成功率会显著提高。研究人员通过构建R-GSM测试集,进一步验证了这一现象。实验结果显示,改变前提顺序可导致模型准确率下降超过30%。此外,添加分散注意力的规则会加剧这种影响。研究还发现,不同的模型对不同顺序的偏好不同,且大模型对顺序效应更敏感。这一发现对于理解和改进大型语言模型的推理能力具有重要意义。
详细摘要:
背景与发现:
– 谷歌DeepMind和斯坦福研究人员发现大模型在逻辑推理任务中,信息呈现顺序对性能有决定性影响。
– 信息按逻辑顺序排列时,模型表现更佳,适用于逻辑和数学问题。
– 改变前提顺序,模型准确率可能下降30%以上。
实验与结果:
– 研究人员构建R-GSM测试集,通过打乱问题陈述顺序,观察模型性能变化。
– 实验涉及GPT-4、Gemini Pro、GPT-3.5等主流大模型。
– 结果显示,所有模型在R-GSM测试集上性能均下降,且对顺序效应更敏感。
影响因素:
– 规则数量和干扰规则数量影响模型性能。
– 不同模型对不同顺序的偏好不同,如GPT-4偏好后向顺序,而PaLM 2-L在反向排序下表现最差。
数学推理应用:
– R-GSM测试集在数学推理领域的应用进一步证实了顺序效应的存在。
– 问题复杂度分解显示,推理步骤多和问题句子多的问题,模型准确率降低。
讨论与结论:
– 尽管前提顺序不影响问题本质,但对大模型推理表现影响显著。
– 大模型在处理问题时,对前提顺序的偏好与人类相似,但更敏感。
– 研究为理解大型语言模型的推理能力提供了新视角,并指出了改进方向。
作者介绍:
– Xinyun Chen(陈昕昀):Google DeepMind高级研究科学家,专注于大语言模型研究。
– Ryan A. Chi:斯坦福大学研究生,对NLP和AI在医疗领域的应用有丰富经验。
原文信息
【原文链接】 阅读原文
【原文字数】 3923
【阅读时长】 14分钟