原生多模态大模型也能强化学习，思维链长达几万字，商汤日日新V6来了

AIGC动态3天前发布 almosthuman2014

111 0 0

文章摘要

商汤推出的「日日新 SenseNova V6」大模型在多模态推理与交互能力上展现了行业领先水平。该模型通过多模态长思维链训练、全局记忆、强化学习等技术突破，显著提升了推理和交互能力。在多模态推理任务上，SenseNova V6 Reasoner 超越了 OpenAI 的 o1 和 Gemini 2.0 flash-thinking，并在语言深度推理任务上也表现优异。在权威评测中，日日新 V6 在纯文本和多模态任务上多项指标超越 GPT-4.5 和 Gemini 2.0 Pro，纯文本推理能力全面超越 DeepSeek V3。此外，日日新 V6 在音频理解、视觉理解等基准上也处于领先水平。

日日新 V6 在实际应用场景中的表现同样令人印象深刻。它支持多模态深度思考，能够通过文字和图片输入进行推理。例如，上传一张剧照后，模型能够准确识别出电影《西西里的美丽传说》并回答相关导演和影片内容。在数学讲题、翻译点读、文旅讲解和绘本故事等场景中，日日新 V6 展现了强大的交互能力。特别是在数学讲题场景中，模型能够精准识别手写答案，并通过深度思考模式提高解题准确性，正确率可达 95%。此外，模型还能通过音视频沟通能力提供实时一对一语音答疑，帮助家长辅导孩子学习。

商汤通过一系列创新技术实现了高性能与低成本的平衡。利用商汤大装置，商汤构建了「模型 – 系统 – 计算」的垂直整合体系，实现了大模型算法与基础设施的联合优化。依靠 6D 自动并行、FP8 低精度训练等技术，日日新 V6 的训练成本达到了行业最优水平。在推理时，模型实现了生产级的 INT4 量化、高适应性的分级缓存、分钟级弹性扩缩容，整体推理成本也做到了行业最低，效率超过了 DeepSeek。

日日新 V6 在多模态融合训练上取得了显著进展。商汤从模型底层架构和数据训练阶段就实现了不同模态的统一理解和生成，而非后期拼接多个单模态模型。通过多智能体协作进行长思维链合成和验证，模型可以支持合成最长 64K token 的多模态长思维链，具备了面对复杂问题的长时间思考能力。此外，日日新 V6 还具备独一无二的长视频统一表征和动态压缩能力，可以将视觉、听觉、文本、时间轴逻辑进行对齐，实现长视频的 400 倍高比例压缩。

日日新 V6 的应用场景广泛，涵盖了办公、儿童教育、金融、翻译、电商购物、情感陪伴等多个领域。与傅利叶机器人合作，基于 SenseNova V6 的机器人可以通过融合图像、视频、语音和文本信息理解环境进行思考与表达，洞察用户的需求与情绪，与人类进行顺畅交互。未来，商汤的日日新大模型将向生产力工具和交互工具两大方向进行大规模落地，帮助人们提升工作效率、优化工作流程，并覆盖从智能助手、智能硬件到智能营销等多个场景。

生成式 AI 正在进入新时代，多模态能力、强推理和效率提升将成为未来大模型的竞争重点。商汤凭借在计算机视觉等方向上的积累，以及在大模型迈向多模态时的优势，构建了处理复杂信息和解决复杂问题的能力。随着 AI 技术的不断发展，原生多模态 AI 的力量将逐渐渗透到日常生活的各个场景中。