原生融合多模态上的突破，让商汤大模型打破Scaling Laws撞墙「魔咒」

AIGC动态8个月前发布 almosthuman2014

1,591 0 0

文章摘要

下一代AI发展遭遇瓶颈，大型语言模型竞赛中各实验室似乎同时撞墙。OpenAI的GPT-5模型发布多次延迟，至今仍未达到可发布水平。大型模型训练成本高昂，耗时数月，GPU和电力需求暴增，数据成为另一大挑战。为克服挑战，研究人员转向新方向，模态融合被认为是AI未来发展的必由之路。

谷歌的Gemini 1.5 Pro超越GPT-4o，宣告大模型竞赛逆袭成功。Anthropic等公司迅速跟进，OpenAI推出主打复杂推理的o1大模型。国内企业也投身新道路探索，商汤科技实现原生融合模态训练突破，发布”日日新”融合大模型。多模态大模型成为追求方向，商汤的原生融合多模态模型打破大语言模型、多模态大模型分立局面，迈向模型一统。

商汤”日日新”融合大模型交互版SenseNova-5o提供实时音视频对话服务，反应速度快，具有满意记忆力，可长达5分钟。支持音频、图像、视频的任意组合多模态输入和自然流畅语音内容输出，商汤走出迈向更自然人机交互的新一步。”日日新”融合大模型已商业落地，向客户开放端到端API调用，交互版也面向视觉交互场景开放商用。

商汤”日日新”融合大模型在图文推理、语言等方面达到业内最优水平，在权威评测中名列前茅。采用原生融合模态训练的多模态大模型的每一种单模态能力都超越了只在单模态数据上训练的模型性能，涌现出在多模态信息上的深度推理能力和跨模态交互能力。

商汤深耕人工智能技术落地多年，在模型算法、算力、行业经验、工程落地能力等方面具备优势。”日日新”融合大模型已落地在具身机器人、AI眼镜、手机、教育等场景。商汤认为，多模态大模型应与广泛业务场景结合，在真实场景中解决复杂问题、完成复杂任务。在交互场景中，多模态能力可做到很多以往做不到的事。

商汤坚定投身多模态新方向，认为真实世界的数据远多于互联网数据，必须构建结合多模态的AI模型以利用好这些数据。大模型已不局限于”做题”，商汤走通原生融合模态技术路径后，未来出现前所未有的想象空间，期待整个空间结构输入、机器人与LLM推理能力高度结合等更多领域拓展。