LLM群体智能崛起，数学性能暴增11.6%！谷歌DeepMind四大机构联手新作

1,276 0 0

文章摘要

最新研究揭示了大型语言模型（LLM）之间合作的潜力，特别是在提升数学问题解决能力方面。蒙特利尔大学、剑桥大学、普林斯顿大学和谷歌DeepMind的研究人员发现，GPT-4能够通过一种元认知的方式显著提高其他LLM的性能，具体表现为数学能力提升了11.6%。

元认知是指对自己思维和推理过程的认识，而这项研究探讨了大型模型是否具备类似的能力。研究人员提出了一个假设，即通过知识引导可以提升LLM的能力。以往的研究表明，大型模型已经表现出一些类似人类的推理特征，例如逐步推理。在这项研究中，研究人员专注于AI在解决数学问题时所应用的技能，因为数学领域包含了从简单到复杂的广泛技能。

研究中描述了一个自动化过程，让GPT-4根据数学问题所需的特定技能对问题进行分类。这个过程分为两个阶段：首先，创建技能示例仓库，然后要求LLM将这些技能组合成更广泛的技能集群。接着，大模型被要求将训练集中的所有示例重新分类为一种后聚类技能。在推理阶段，LLM B使用技能示例仓库中的技能来标记测试问题，并从仓库中获取具有相同技能标签的范例，以帮助解决测试问题。

实验结果显示，技能知识显著改善了基于文本和程序的提示性能，并且这些技能表现出强大的可迁移性，能够提升其他数学数据集和LLM的数学推理能力。研究人员测试了两种主要类型的上下文提示方法：基于文本的提示和程序辅助提示。基于技能的方法在MATH数据集上的所有话题中表现出优于所有其他方法的性能。此外，基于技能的方法在GSM8K数据集上的表现也优于CoT和随机基准方法。

研究还强调了准确技能分配和相关上下文示例在有效问题解决中的重要性。新方法在性能上取得了显著的进步，超出了标准CoT 11.6%，并且比复杂CoT好3.5%，比基于主题方法高3.5%。这些结果凸显了方法的有效性，尤其是细粒度技能标签的重要性。

最后，研究提出了一个LLM提取元认知知识框架，该框架依赖于高级模型如GPT-4的可用性。技能发现过程改进了GPT-4的情境学习，表明使用技能来微调GPT-4可能会提高其能力。这一发现为未来LLM的发展和应用提供了新的方向。