月之暗面发布首款数学模型 k0-math,对标o1
文章摘要
【关 键 词】 Kimi数学、强化学习、AI能力、数学模型、技术范式
月之暗面科技有限公司的创始人杨植麟在京东科技大厦宣布了Kimi数学模型k0-math的正式发布。该模型的数学能力与OpenAI的o1系列相媲美,且截至2024年10月,Kimi的月活跃用户已超过3600万。杨植麟强调,公司未来将更侧重于利用强化学习方法来扩展AI的能力,而不仅仅是预测下一个token,因为这种方法能够使AI具备深度思考的能力,特别是在解决数学问题时。
k0-math模型从数学场景出发,通过推理泛化到更多任务上。在多项基准能力测试中,k0-math的初代模型在中考、高考、考研以及包含入门竞赛题的MATH等4个数学基准测试中的成绩超过了o1-mini和o1-preview模型。在难度更大的OMNI-MATH和AIME基准测试中,k0-math初代模型的表现分别达到了o1-mini最高成绩的90%和83%。
k0-math的强化模型将在一到两周内被集成到Kimi探索版中,该版本将包含意图增强、信源分析、链式思考三个特点。在深度思考过程中,模型生成的学习数据的有用性和正确性是强化学习中的一个核心问题。杨植麟提到,可以通过改变奖励模型的结构来抑制k0-math在思考过程中的“过度思考”。
杨植麟还提到,Kimi探索版将允许用户自行选择使用,这有助于更好地分配资源并满足用户的预期。他强调,月之暗面的产品策略更为克制,公司主动做了业务的减法,聚焦于离AGI(人工通用智能)上限最高的事情,并始终保持卡和人的比例最高。他认为,Kimi目前最核心的任务是提升留存。
对于Scaling Laws的争辩,杨植麟认为预训练还有空间,这个空间将在明年释放出来。他预测,强化学习将带来技术范式上的改变,但核心依然是scale。他指出,通过强化学习的方式,结合人的参与,AI的上限是非常高的。
原文和模型
【原文链接】 阅读原文 [ 1515字 | 7分钟 ]
【原文作者】 AI科技评论
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★☆☆