从RLHF到DPO再到TDPO,大模型对齐算法已经是「token-level」
文章摘要
【关 键 词】 人工智能、大语言模型、直接偏好优化、Token-level优化、策略优化
在人工智能领域,大语言模型(LLM)的控制与指导是核心挑战之一。早期,人类反馈的强化学习方法(RLHF)被用来管理这些模型,取得了显著成效。然而,RLHF在训练过程中资源消耗巨大,促使学者探索更简单高效的策略,直接偏好优化(DPO)应运而生。DPO通过数学推理直接映射奖励函数与最优策略,消除了奖励模型训练过程,直接在偏好数据上优化策略模型,减少了复杂度并增强了算法稳健性。
尽管DPO在逆KL散度约束下表现出色,但其mode-seeking特性可能限制模型能力,减少生成多样性。此外,DPO主要从句子级控制KL散度,对细粒度控制存在限制,可能是生成多样性下降的关键因素。
为解决这一问题,中科院和伦敦大学学院的汪军与张海峰团队提出了Token-level Direct Preference Optimization(TDPO)算法。TDPO从token级角度重新定义对齐流程目标函数,引入Bradley-Terry模型作为优势函数,实现从token级进行分析和优化。与DPO相比,TDPO的主要贡献包括:
1. Token级建模方式:TDPO从Token级对问题进行建模,提供更精细的RLHF分析。
2. 细粒度KL散度约束:在每个token处引入前向KL散度约束,更好地约束模型优化。
3. 性能优势:TDPO实现更好的对齐性能和生成多样性帕累托前沿。
TDPO与DPO的主要区别在于,TDPO从token级建模并引入额外的前向KL散度约束,控制模型偏移程度,充当模型对齐的baseline。具体推导过程中,DPO通过数学推导消除了RLHF过程中的奖励建模阶段,而TDPO则基于语言模型的顺序、自回归生成过程,将生成回复表示为T个token组成的形式,并定义状态、动作和token级奖励。
TDPO为策略建立了状态-动作函数、状态值函数和优势函数,通过这些函数实现对策略的优化。这种方法有望在保持对齐性能的同时,提升LLM的生成多样性,为人工智能领域提供新的研究方向和思路。
原文和模型
【原文链接】 阅读原文 [ 4297字 | 18分钟 ]
【原文作者】 机器之心
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★★