从RLHF到DPO再到TDPO，大模型对齐算法已经是「token-level」

AIGC动态1年前 (2024)发布 almosthuman2014

2,740 0 0

文章摘要

【关键词】 人工智能、大语言模型、直接偏好优化、Token-level优化、策略优化

在人工智能领域，大语言模型（LLM）的控制与指导是核心挑战之一。早期，人类反馈的强化学习方法（RLHF）被用来管理这些模型，取得了显著成效。然而，RLHF在训练过程中资源消耗巨大，促使学者探索更简单高效的策略，直接偏好优化（DPO）应运而生。DPO通过数学推理直接映射奖励函数与最优策略，消除了奖励模型训练过程，直接在偏好数据上优化策略模型，减少了复杂度并增强了算法稳健性。

尽管DPO在逆KL散度约束下表现出色，但其mode-seeking特性可能限制模型能力，减少生成多样性。此外，DPO主要从句子级控制KL散度，对细粒度控制存在限制，可能是生成多样性下降的关键因素。

为解决这一问题，中科院和伦敦大学学院的汪军与张海峰团队提出了Token-level Direct Preference Optimization（TDPO）算法。TDPO从token级角度重新定义对齐流程目标函数，引入Bradley-Terry模型作为优势函数，实现从token级进行分析和优化。与DPO相比，TDPO的主要贡献包括：

1. Token级建模方式：TDPO从Token级对问题进行建模，提供更精细的RLHF分析。
2. 细粒度KL散度约束：在每个token处引入前向KL散度约束，更好地约束模型优化。
3. 性能优势：TDPO实现更好的对齐性能和生成多样性帕累托前沿。

TDPO与DPO的主要区别在于，TDPO从token级建模并引入额外的前向KL散度约束，控制模型偏移程度，充当模型对齐的baseline。具体推导过程中，DPO通过数学推导消除了RLHF过程中的奖励建模阶段，而TDPO则基于语言模型的顺序、自回归生成过程，将生成回复表示为T个token组成的形式，并定义状态、动作和token级奖励。

TDPO为策略建立了状态-动作函数、状态值函数和优势函数，通过这些函数实现对策略的优化。这种方法有望在保持对齐性能的同时，提升LLM的生成多样性，为人工智能领域提供新的研究方向和思路。