超越DPO，创新大模型优化算法SimPO

AIGC动态1年前 (2024)发布 AIGCOPEN

2,471 0 0

文章摘要

【关键词】 人工智能、模型优化、SimPO方法、性能提升、算力效率

在人工智能领域，大模型如ChatGPT的优化至关重要特别是在根据人类反馈调整性能和减少非法内容输出方面。

传统的直接偏好优化（DPO）方法依赖于参考模型，存在增加算力和内存需求以及训练推理不一致的问题。为解决这些问题，弗吉尼亚大学和普林斯顿大学研究人员提出了SimPO方法。

SimPO通过使用序列的平均对数概率作为隐式奖励机制，消除了对参考模型的依赖，从而提高了计算效率和内存使用率。该方法还引入了“目标奖励边际”概念，增强算法区分度，优化分类效果，以生成更符合人类偏好的内容。

在奖励函数设计上，SimPO采用自由奖励函数，直接利用策略模型计算奖励，并与模型生成过程中的度量直接对齐。此外，SimPO还运用长度归一化，确保奖励与序列长度无关，避免模型过度依赖长度。

通过广泛的实验评估，SimPO在AlpacaEval 2和Arena-Hard等基准测试中展现出优于DPO及其他技术的优化性能，提升幅度最大可达6.4分和7.5分。特别在基于Llama3-8B-Instruct构建的模型上，应用SimPO算法后的表现超越了Claude 3 Opus，成为高性能的开源大模型，显示了其在优化大型语言模型方面的显著效果。