多模态也做到了强推理！工业界首个开源的R1V，让视觉思考进入o1时代

AIGC动态6个月前发布 almosthuman2014

1,349 0 0

文章摘要

昆仑万维近期发布了Skywork R1V系列模型，这一多模态思维链推理模型在视觉推理和通用推理能力上达到了SOTA级别，成为国内首家开源多模态思维链推理模型的企业。R1V-38B模型在多项基准测试中表现优异，尤其在数学推理、代码生成等任务上超越了传统多模态模型，甚至在部分任务上接近了更大尺寸的闭源模型。在权威的MATH500和AIME数学推理基准测试中，R1V分别取得了94.0和72.0的高分，展现了人类专家级的水准。

R1V的成功在于其三大核心技术创新：高效多模态推理能力迁移、多模态混合式训练和自适应长度思维链蒸馏。这些技术使得R1V在视觉任务中表现出色，尤其是在跨模态对齐和推理能力提升方面。通过轻量级的Skywork-VL视觉投影器，R1V实现了无缝多模态适应，无需重新训练基础语言模型或视觉编码器。多模态混合式训练结合了迭代监督微调和DeepSeek-R1的核心RL算法群组，显著提升了跨模态任务的表现。自适应长度思维链蒸馏则通过动态优化推理过程，提升了推理效率和质量。

R1V的视觉推理能力在多学科任务中得到了验证，包括数学、化学、医学等领域。例如，在2025考研数学题目和化学分子式分析中，R1V展现了其强大的推理能力。此外，R1V还能处理医学影像诊断等复杂场景，尽管最终诊断仍需由医生完成。在视觉推理基准测试中，R1V在MMMU与MathVista等任务中分别取得了69和67.5的成绩，超越了多个开源竞品模型，达到了与更大规模闭源模型媲美的水准。

R1V的发布不仅推动了多模态大模型的发展，也为AI应用打开了新的格局。昆仑万维表示，R1V可以同时处理文本与视觉信息，拥有强大的跨模态推理能力，能够应对复杂的逻辑推理、数学问题、科学分析以及医学影像诊断等场景。这一模型的成功标志着大模型在多模态强推理领域的突破，为AI应用提供了更多可能性。

昆仑万维在AI领域的探索不仅限于视觉多模态，还在向全模态技术迈进。该团队设计了一种在R1V模型中灵活扩展语音模态的方式，构建了一个全模态思考大模型，实现了图像、视频、语音的全模态理解能力。未来，昆仑万维计划公布相关评测成绩并开源这一全模态思考大模型。

昆仑万维的开源举措不仅扩大了自身技术影响力，也对开源社区和整个AI行业的健康发展起到了积极作用。从音乐大模型到视频生成模型，昆仑万维在多个AI领域取得了显著成绩，形成了“AI前沿基础研究——基座模型——AI矩阵产品/应用”的产业链。随着R1V的发布，昆仑万维在多模态强推理领域的探索进一步推动了AI技术的发展，预示着AGI时代的临近。