全球首个工业界多模态推理模型开源！38B硬刚DeepSeek-R1，训练秘籍全公开

1,401 0 0

文章摘要

昆仑万维近日发布了全球首个开源的多模态推理大模型Skywork R1V（简称R1V），该模型拥有38B参数，性能直逼DeepSeek-R1，并在多项基准测试中取得了领先的成绩。R1V不仅具备强大的文本推理能力，还通过跨模态迁移学习将推理能力扩展至视觉领域，实现了多模态推理的突破。R1V的问世标志着多模态推理新时代的开启，并为全球AI开源社区注入了新的活力。

在视觉问答任务中，R1V直接对标Claude 3.5 Sonnet、GPT-4o等闭源模型，同时在MMMU和MathVista等基准测试中分别取得了69分和67.5分的高分，展现了其在复杂数学推理和图像逻辑分析中的卓越能力。R1V的三大亮点包括：全球首个工业界开源多模态推理模型、性能接近甚至超越规模更大的开源模型，以及通过开源推动技术普惠。昆仑万维选择无偿开源R1V，旨在通过开放技术推动AGI（通用人工智能）的发展，并进一步提升开源社区的技术影响力。

R1V的成功得益于其背后的三大核心技术：跨模态迁移学习、混合式训练策略和自适应长度思维链蒸馏。跨模态迁移学习首次实现了将文本推理能力高效迁移至视觉模态，显著减少了多模态推理数据的需求。通过MLP适配器，R1V将视觉骨干与具有推理能力的语言模型对齐，保留了原有的推理能力，并在数学推理基准测试中取得了优异成绩。混合式训练策略结合了迭代监督微调和GRPO强化学习，动态调整思维链长度，进一步提升了模型的推理效率和泛化能力。自适应长度思维链蒸馏则通过动态调整推理链长度，有效缓解了模型“过度思考”的问题，显著提升了推理效率。

R1V还通过全模态扩展技术，实现了在单个模型中同时处理图像、视频、语音等多种模态信息的能力。这种全模态能力使得R1V在语音和视觉理解评测中均斩获多项SOTA成绩，进一步推动了多模态到全模态的跨越。昆仑万维的这一技术突破，不仅展示了其在AI领域的领先地位，也为全球AI技术的发展提供了新的方向。

作为中国AI领军企业，昆仑万维在过去三年中在音乐大模型、文本大模型、视频模型等领域取得了一系列突破，并构建了完整的AI产品矩阵。R1V的发布是中国AI向世界发出的洪亮声音，展示了中国企业在全球AI技术竞争中的硬核担当。未来，昆仑万维计划继续开源具有空间推理能力和世界理解能力的视觉思考模型，进一步推动AGI的落地。