全面超越DPO：陈丹琦团队提出简单偏好优化SimPO，还炼出最强8B开源模型

AIGC动态1年前 (2024)发布 almosthuman2014

2,620 0 0

文章摘要

【关键词】 语言模型、偏好优化、SimPO算法、奖励函数、性能评估

为使大型语言模型（LLM）与人类价值观和意图保持一致，学习人类反馈是关键。近期研究提出了一种简单有效的离线偏好优化算法——SimPO。

SimPO的核心优势在于其奖励函数与生成指标的对齐，消除了对参考模型的需求，简化了计算过程。

SimPO的关键设计包括：（1）长度归一化的奖励，计算方式为策略模型奖励中所有token的平均对数概率；（2）目标奖励差额，确保获胜和失败响应间的奖励差异超过该差额，增强分类器泛化能力。

实验结果表明，SimPO在多样化对话能力评估基准上，如MT-Bench、AlpacaEval 2和Arena-Hard，显著优于其他偏好优化方法，展现了其在性能上的稳健性和有效性。

此外，研究指出，Instruct设置相比Base设置在所有基准上均有显著性能提升，暗示高质量SFT模型初始化和偏好数据的重要性。

消融实验进一步证明了SimPO设计中长度归一化和目标奖励差额的重要性。总之，SimPO为离线偏好优化提供了一种简单而强有力的新途径。

原文和模型

【原文链接】 阅读原文 [ 4298字 | 18分钟 ]
【原文作者】 机器之心
【摘要模型】 glm-4
【摘要评分】 ★★★★☆

智谱AI

智谱AI是一家国内的AI大模型...

# AIGC动态 # 大模型 # SimPO算法 # 偏好优化 # 奖励函数 # 性能评估 # 语言模型

文章版权归作者所有，未经允许请勿转载。

AI科技评论

1,160

苹果智能背后模型公布：3B模型优于Gemma-7B，服务器模型媲美GPT-3.5-Turbo

机器之心

1,826

LLM已能自我更新权重，自适应、知识整合能力大幅提升，AI醒了？

机器之心

762

麻省理工创新模型：用2D视频扩散，生成 3D 视频

AIGC开放社区

2,135

比知识蒸馏好用，田渊栋等提出连续概念混合，再度革新Transformer预训练框架

机器之心

1,401

机器之心

2,144

暂无评论

暂无评论...

全面超越DPO：陈丹琦团队提出简单偏好优化SimPO，还炼出最强8B开源模型

文章摘要

原文和模型

解读大模型价格战：着急的大厂，「不太慌」的模型厂商和创业者

Hinton揭秘Ilya成长历程：Scaling Law是他学生时代就有的直觉

相关文章

暂无评论

热门网址

热门文章

全面超越DPO：陈丹琦团队提出简单偏好优化SimPO，还炼出最强8B开源模型

文章摘要

原文和模型

解读大模型价格战：着急的大厂，「不太慌」的模型厂商和创业者

Hinton揭秘Ilya成长历程：Scaling Law是他学生时代就有的直觉

相关文章

暂无评论

Trac-AI IDE

极客训练营-扫码领取免费材料

讯飞文书-办公助手

热门网址

热门文章