标签:Token-level优化

从RLHF到DPO再到TDPO,大模型对齐算法已经是「token-level」

在人工智能领域,大语言模型(LLM)的控制与指导是核心挑战之一。早期,人类反馈的强化学习方法(RLHF)被用来管理这些模型,取得了显著成效。然而,RLHF在训...