高考考上985的AI来了!超强数理推理横扫真题,训练秘籍剑指AGI

AIGC动态4小时前发布 AIera
63 0 0
高考考上985的AI来了!超强数理推理横扫真题,训练秘籍剑指AGI

 

文章摘要


【关 键 词】 多模态推理开源高考强化学习

昆仑万维最新发布的Skywork-R1V 2.0版本,标志着多模态推理模型的又一次重大突破。作为全球首个工业界多模态推理模型,R1V 2.0不仅在技术上实现了显著进化,还全面开源了模型权重、技术报告和代码仓库,推动了多模态推理社区的发展。R1V 2.0的亮点在于其强大的高考数理解题能力,能够准确解答复杂的物理、化学和生物题目,展现出985高校水平的推理能力。例如,在2022年江苏高考物理真题中,模型通过法拉第电磁感应定律准确计算了感应电动势,并给出了正确答案。这种能力不仅限于物理,模型在化学和生物题目中也表现出了极高的准确率。

R1V 2.0的另一个显著特点是其在数学推理和编程能力上的跃升。在多个权威基准测试中,R1V 2.0相较于前代版本在文本与视觉推理任务中均实现了显著提升。例如,在MMMU、Olympiad Bench和MathVision等视觉推理榜单上,R1V 2.0均取得了优异的成绩,甚至在部分任务中追平了闭源商业模型。此外,模型在AIME2024和LiveCodeBench等挑战中也展现出了人类专家级别的数学和代码理解能力。

为了实现这些突破,昆仑万维团队引入了多项创新技术。首先是多模态奖励模型Skywork-VL Reward,它通过融合多模态推理与通用奖励模型,显著增强了模型的推理能力和泛化能力。在视觉奖励模型VL-RewardBench基准上,Skywork-VL Reward取得了73.1的SOTA成绩,同时在纯文本奖励基准RewardBench上更是拿下了90.1的高分。此外,团队还引入了混合偏好优化(MPO)机制,通过偏好信号优化模型的推理路径,确保其在多任务、多领域场景下的强大能力。

为了进一步提升模型的深度推理能力,团队采用了基于规则的群体相对策略优化(GRPO)算法,并引入了选择性样本缓冲区(SSB)机制。SSB通过保留并优先选择具有非零优势的高价值样本,显著提高了训练的有效样本密度,缓解了模型在训练中期优化空间趋于饱和的问题。实验证明,SSB在R1V 2.0中的应用是提升推理能力与训练效率的关键一环。

昆仑万维的开源策略不仅限于R1V 2.0,团队还在视觉、推理、视频生成等领域开源了多款模型,并进行了前沿的“空间智能”探索。这些开源项目在ModelScope与Hugging Face上大受欢迎,赢得了社区的热烈反响。通过开放权重、技术报告和代码仓库,昆仑万维为全球开发者和研究人员提供了宝贵的资源,加速了AI技术的迭代和应用。

总的来说,R1V 2.0的发布不仅是昆仑万维在AGI道路上的又一里程碑,也标志着开源模型与闭源系统之间的差距正在逐步缩小。通过持续开源和技术创新,昆仑万维正在推动整个行业向AGI迈进。

原文和模型


【原文链接】 阅读原文 [ 3400字 | 14分钟 ]
【原文作者】 新智元
【摘要模型】 deepseek/deepseek-v3/community
【摘要评分】 ★★★★★

© 版权声明
“绘蛙”

相关文章

“极客训练营”

暂无评论

暂无评论...