仅需格式转换提升9%数学推理能力，上交开源新对齐方法ReAlign

AIGC动态1年前 (2024)发布 QbitAI

1,991 0 0

模型信息

【模型公司】 月之暗面
【模型名称】 moonshot-v1-32k
【摘要评分】 ★★★★★

文章摘要

上海交通大学生成式人工智能实验室（GAIR Lab）开发了一种新的方法ReAlign，旨在提升大型语言模型的对齐能力，特别是在数学推理、事实性回答和可读性方面。ReAlign通过提升现有数据集的质量，以较小的人工成本增强模型的整体性能。该方法已开源，包括代码、数据集、任务描述、分类器和评估工具。

ReAlign的核心优势在于其能够显著提高数学推理能力，例如LLaMA-2-13B模型在GSM8K数学推理任务上的性能提升了9%。此外，它还展现出强大的OOD泛化能力。ReAlign与其他对齐技术如SFT、DPO等互补，能够在现有技术基础上进一步提升模型性能。该方法通过检索增强技术提升知识密集型任务的事实性，减少幻觉影响。

ReAlign方法包括三个主要模块：准则定义、检索增强和格式重构。在准则定义阶段，研究者定义了46个任务并设计了相应的回答格式。检索增强模块针对知识密集型任务，通过调用搜索引擎API获取证据以确保回答的事实性。格式重构则利用大型模型根据预定义的准则和检索到的证据重写回答，并通过后处理步骤优化结果。

实验结果显示，ReAlign在多个数据集和模型上均能提升对齐能力、数学推理能力、事实性和可读性，同时保持了模型的知识能力。此外，ReAlign的扩展定律表明，即使只对部分数据应用ReAlign，也能显著提升模型性能。研究者还提供了详细的资源，包括任务描述、格式、分类器和评估数据集，以支持ReAlign方法的应用和研究。