第一个国产中文o1来了，直接数学竞赛题伺候！

159 0 0

文章摘要

昆仑万维的Skywork o1系列模型因其出色的推理能力而备受关注。该系列包括Skywork o1 Open、Skywork o1 Lite和Skywork o1 Preview三个细分模型，分别具备解决复杂数学任务、优秀的中文支持和快速推理能力，以及高质量的推理过程。Skywork o1 Open在类o1模型Benchmark中表现出色，性能超越了同生态位的SOTA，解锁了即使是大型模型如GPT 4o也无法完成的数学推理任务，为推理模型在轻量级设备上的部署提供了可能。

在MATH数据集上，Q*算法帮助Llama-3.1-7B超越了同生态位的SOTA Qwen2.5-7B-instruct。昆仑万维还计划开源两个推理任务的Process Reward Model（PRM），Skywork o1 Open-PRM-1.5B和Skywork o1 Open-PRM-7B，这些模型能够对模型回答中的每个步骤进行打分，相比此前开源的Skywork-Reward-Model，提供了更精细的评价。

Skywork o1在AIME数学竞赛题和高考数学题上的表现与标准答案一致，展现了其推理和思考能力。它能够分步解决问题，即使遇到“陷阱”也能及时发现并提醒自己，复刻并呈现出人类的思考过程。在其他推理任务上，如比较数字大小、脑筋急转弯和加密问题，Skywork o1同样表现出了强大的逻辑推理能力。

Skywork o1的成功归功于其三阶段的自研技术方案，包括推理反思能力训练、推理能力强化学习和推理规划。这些技术提升了模型在复杂任务中的推理能力，并通过精细化的奖励机制和Q*算法，显著增强了模型的在线推理能力。

类o1模型的重要性在于它们能够进行通用复杂推理，满足了市场对于强大推理能力模型的需求。昆仑万维在大模型时代的表现突出，其技术新潮和开源特点加速了国内开源社区复现o1的进程。Skywork o1的邀测地址已开放，感兴趣的用户可以申请参与测试。