推特热帖:k1.5 很牛,因为借鉴了 UCLA 与 CMU 合作团队的这项技术

AIGC动态15小时前发布 aitechtalk
114 0 0
推特热帖:k1.5 很牛,因为借鉴了 UCLA 与 CMU 合作团队的这项技术

 

文章摘要


【关 键 词】 AI模型强化学习学术争议学术背景技术趋势

2025年1月20日发布的Kimi k1.5因实现多模态推理性能引发关注,但一个月后技术博主Yue Wu公开质疑其核心算法SPPO借鉴了自己2024年5月提出的研究成果。这场争议将公众视线引向SPPO技术的原理与学术背景,同时也揭示了大型语言模型后训练阶段的技术演进趋势。

SPPO作为一种自博弈强化学习算法,通过平方损失函数将人类偏好对齐融入语言模型训练。其核心在于用胜率作为奖励函数,并将策略梯度定理中的基线项转化为常数近似,形成轻量级的强化学习框架。数学分析表明,SPPO的平方损失等价于策略梯度的半在线变体,在每次迭代中仅需单次采样即可完成优化,避免了传统强化学习需要持续生成样本的复杂流程。这种特性使其在词汇级别隐式优化最大熵策略,最小化学习策略与最优策略间的KL散度。

技术演进层面,SPPO的出现反映了语言模型训练范式的转变。离线直接偏好优化(DPO)正逐步取代传统的奖励模型+强化学习(RLHF)组合,而迭代式方法如SPPO进一步将离线优化转化为在线对齐过程。实验显示,无需价值函数估计或梯度裁剪等辅助技术,端到端强化学习已能实现显著效果。这预示着未来语言模型后训练可能更加依赖简洁的数学框架,而非复杂的工程技巧。

争议焦点人物Yue Wu拥有深厚的学术积累,其本科师从北京大学王立威教授,博士阶段在加州大学洛杉矶分校顾全全教授指导下深造,现为普林斯顿大学博士后研究员。他近年发表的9篇论文中有3篇担任第一作者,研究领域涵盖联邦学习、分子生成建模和奖励机制设计。其实习经历横跨NEC美研院、字节美国AI实验室和Meta,在个性化联邦学习、药物发现生成模型等方向均取得ICML级别成果。

另一位SPPO论文共同第一作者Zhiqing Sun的职业动向同样值得关注。这位卡耐基梅隆大学博士毕业生已于2025年2月加入OpenAI,其技术迁移可能影响未来行业竞争格局。这场技术争议不仅涉及算法原创性认定,更折射出人工智能领域顶尖人才的流动如何推动技术边界扩展。

原文和模型


【原文链接】 阅读原文 [ 1263字 | 6分钟 ]
【原文作者】 AI科技评论
【摘要模型】 deepseek-r1
【摘要评分】 ★★★☆☆

© 版权声明
“绘蛙”

相关文章

“极客训练营”

暂无评论

暂无评论...