LLaMA-2-7B数学能力上限已达97.7%？Xwin-Math利用合成数据解锁潜力

AIGC动态1年前 (2024)发布 almosthuman2014

1,792 0 0

模型信息

【模型公司】 OpenAI
【模型名称】 gpt-3.5-turbo-0125
【摘要评分】 ★★★☆☆

文章摘要

这篇文章介绍了一项由西安交通大学、中国科学技术大学、清华大学和微软亚洲研究院的学者共同完成的研究工作，名为Xwin，旨在探索通用预训练下规模为7B的语言模型在数学问题解决方面的潜力。研究发现，即使是规模较小的模型也具备强大的数学推理能力，通过合成数据的有监督微调方法，模型在数学问题上表现出色。然而，研究也指出当前语言模型存在数学能力不稳定的问题，通过扩大有监督微调数据集和使用合成数据，研究团队成功提高了模型生成正确答案的可靠性。最终，他们开发的Xwin-Math模型在数学基准测试上取得了显著的成绩，超越了之前的SOTA模型，甚至有望超越一些规模更大的模型。研究还提出了新的评测指标，展示了模型在数学推理泛化能力方面的表现。这项研究为未来在大型语言模型数学推理能力方面的研究提供了新的视角，为人工智能在数学问题解决方面的进步奠定了基础。