文章摘要
【关 键 词】 AI交互、多模态、图像识别、神经网络、评测领先
商汤科技最新发布的日日新融合大模型交互版(SenseNova-5o,简称“新5o”)以其多模态能力显著提升了与AI交互的质量。该模型能在2秒内响应,具有逼真的语气助词、拟人停顿感和情绪模仿,解决了传统AI交互中的延迟问题,增强了真实度。在记忆力方面,“新5o”支持超长多模态交互记忆不少于5分钟,能够清晰存储并迅速回忆相关内容,不断优化对用户需求的理解。在眼力测试中,“新5o”能够准确找出图片中的不符合年代的物品,展现了其出色的识别能力。此外,“新5o”还能解答物理题目,并对复杂的神经网络架构图进行讲解。
“新5o”的成功归功于其背后的国内首个原生融合多模态模型,这种模型架构能够深度融合多种模态信息,打破模态间的壁垒,实现一体化处理。在预训练阶段,商汤利用海量图文交错数据,通过逆渲染、基于混合语义的图像生成等方法合成大量融合模态数据。后训练阶段则构建跨模态任务,模拟真实场景中的复杂问题解决过程,形成交互解决问题的链条性数据,促使模型激发对多模态信息的整合理解分析能力。
在权威评测榜单上,“新5o”的成绩也非常亮眼,在SuperCLUE测评中文科任务以81.8分位列全球第一,理科任务夺得金牌,计算维度以78.2分位列国内第一。在OpenCompass的多模态评测中平均得分77.4,领先众多国内外模型。这表明“新5o”在语言、推理、多模态信息处理等方面均达到较高水平,能够有效避免多模态模型在纯语言任务中性能严重下降的问题。商汤的原生融合多模态大模型在综合性能上展现出明显优势,为自动驾驶、具身智能等领域提供了新的解决方案。
原文和模型
【原文链接】 阅读原文 [ 2526字 | 11分钟 ]
【原文作者】 量子位
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★☆☆