文章摘要
【关 键 词】 AI研究、数学推理、模式识别、逻辑脆弱、神经符号
苹果公司的六位AI研究人员发表了一篇论文,对当前领先的语言模型(LLM)进行了测试,以评估它们处理数学推理任务的能力。研究发现,即使是问题措辞的微小变化也会导致模型性能的显著下降,这表明这些模型依赖于模式匹配而非真正的逻辑推理。在测试中,添加不相关的信息会显著影响模型的答案,即使这些信息不应影响数学结果。例如,当在问题中引入与猕猴桃数量无关的细节时,如OpenAI的o1和Meta的Llama等模型会错误地调整最终总数。
研究人员指出,这种推理的脆弱性表明,这些模型没有使用真正的逻辑来解决问题,而是依赖于训练过程中学习到的复杂模式识别。他们发现,即使是简单的改变名称也可以改变结果,这对需要在现实世界中进行一致、准确推理的AI应用的未来来说是一个令人不安的潜在信号。所有测试的模型,从较小的开源版本到专有模型,如OpenAI的GPT-4o,在输入数据产生看似无关紧要的变化时,性能都会显著下降。
尽管论文提出了这些关键问题,但也受到了一些批评。一些网友对论文的逻辑性和目的提出质疑,认为论文没有清晰地定义“真正的推理”是什么,也没有引用其他文献来阐明这一点。此外,有网友指出,论文的结论与测试结果相矛盾,例如,测试模型之一的o1在性能下降上比其他模型更为稳健。还有网友担心近年来与人工智能相关的研究论文存在质量问题,认为这些论文的专业性不如其他主题的论文。
尽管存在争议,一些网友认为论文有一定的价值,因为它探索了模型的可靠性,这是生产中的重要因素。然而,也有人认为论文的推理联系牵强,缺乏与人类对比的基线。Gary Marcus,一位著名的AI研究员,也对论文发表了看法,他认为这种因干扰信息而推理失败的例子并不新鲜,并指出大模型无法进行足够抽象的形式推理。他强调,符号操作必须是AI发展的一部分,神经符号人工智能可能是继续发展的必要条件。
原文和模型
【原文链接】 阅读原文 [ 2957字 | 12分钟 ]
【原文作者】 AI前线
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★☆