多模态也做到了强推理!工业界首个开源的R1V,让视觉思考进入o1时代

文章摘要
昆仑万维近期发布了Skywork R1V系列模型,这一多模态思维链推理模型在视觉推理和通用推理能力上达到了SOTA级别,成为国内首家开源多模态思维链推理模型的企业。R1V-38B模型在多项基准测试中表现优异,尤其在数学推理、代码生成等任务上超越了传统多模态模型,甚至在部分任务上接近了更大尺寸的闭源模型。在权威的MATH500和AIME数学推理基准测试中,R1V分别取得了94.0和72.0的高分,展现了人类专家级的水准。
R1V的成功在于其三大核心技术创新:高效多模态推理能力迁移、多模态混合式训练和自适应长度思维链蒸馏。这些技术使得R1V在视觉任务中表现出色,尤其是在跨模态对齐和推理能力提升方面。通过轻量级的Skywork-VL视觉投影器,R1V实现了无缝多模态适应,无需重新训练基础语言模型或视觉编码器。多模态混合式训练结合了迭代监督微调和DeepSeek-R1的核心RL算法群组,显著提升了跨模态任务的表现。自适应长度思维链蒸馏则通过动态优化推理过程,提升了推理效率和质量。
R1V的视觉推理能力在多学科任务中得到了验证,包括数学、化学、医学等领域。例如,在2025考研数学题目和化学分子式分析中,R1V展现了其强大的推理能力。此外,R1V还能处理医学影像诊断等复杂场景,尽管最终诊断仍需由医生完成。在视觉推理基准测试中,R1V在MMMU与MathVista等任务中分别取得了69和67.5的成绩,超越了多个开源竞品模型,达到了与更大规模闭源模型媲美的水准。
R1V的发布不仅推动了多模态大模型的发展,也为AI应用打开了新的格局。昆仑万维表示,R1V可以同时处理文本与视觉信息,拥有强大的跨模态推理能力,能够应对复杂的逻辑推理、数学问题、科学分析以及医学影像诊断等场景。这一模型的成功标志着大模型在多模态强推理领域的突破,为AI应用提供了更多可能性。
昆仑万维在AI领域的探索不仅限于视觉多模态,还在向全模态技术迈进。该团队设计了一种在R1V模型中灵活扩展语音模态的方式,构建了一个全模态思考大模型,实现了图像、视频、语音的全模态理解能力。未来,昆仑万维计划公布相关评测成绩并开源这一全模态思考大模型。
昆仑万维的开源举措不仅扩大了自身技术影响力,也对开源社区和整个AI行业的健康发展起到了积极作用。从音乐大模型到视频生成模型,昆仑万维在多个AI领域取得了显著成绩,形成了“AI前沿基础研究——基座模型——AI矩阵产品/应用”的产业链。随着R1V的发布,昆仑万维在多模态强推理领域的探索进一步推动了AI技术的发展,预示着AGI时代的临近。
原文和模型
【原文链接】 阅读原文 [ 3545字 | 15分钟 ]
【原文作者】 机器之心
【摘要模型】 deepseek/deepseek-v3/community
【摘要评分】 ★★★★★