标签:偏好优化

全面超越DPO:陈丹琦团队提出简单偏好优化SimPO,还炼出最强8B开源模型

为使大型语言模型(LLM)与人类价值观和意图保持一致,学习人类反馈是关键。近期研究提出了一种简单有效的离线偏好优化算法——SimPO。SimPO的核心优势在于其奖...