性能超越GPT-4 Turbo！6000亿商汤多模态大模型登场，35万元一体机能自动生成代码｜钛媒体AGI

AIGC动态1年前 (2024)发布 TMTPOSTAGI

2,080 0 0

性能超越GPT-4 Turbo！6000亿商汤多模态大模型登场，35万元一体机能自动生成代码｜钛媒体AGI

文章摘要

商汤科技近日发布了“日日新SenseNova”5.0多模态大模型系列，这一系列模型采用了混合专家（MoE）架构，并支持高达10T Tokens的中英文训练数据。这一技术升级使得推理合成数据达到数千亿Token，有效提升了模型的推理能力，尤其是在知识、推理、数学、代码等方面的综合能力，全面对标GPT-4 Turbo。商汤科技表示，这是行业内首个“云、端、边”全栈大模型产品矩阵，旨在满足不同规模场景的应用需求，加速生成式AI向产业落地的全面跃迁。

商汤科技董事长兼CEO徐立强调，公司将持续推动大模型研发，探索大模型的KRE三层架构（知识-推理-执行），不断突破大模型能力边界。他预测，2024年将是端侧大模型爆发的一年。

商汤科技联合创始人、首席科学家王晓刚也表示，端侧模型市场潜力巨大，AI PC和汽车智能化将成为重要的发展机遇，有助于大模型的普及应用。他指出，大模型的发展将导致资源投入、软硬件基础设施要求越来越高，未来不会有太多公司从事大模型研发，不会形成“百模”或“千模大战”。

商汤集团在2023年3月宣布将AGI作为核心战略目标，以期在未来几年内实现AGI技术的重大突破。公司建立了AI for All的发展目标，并将重点放到以SenseCore AI大装置作为大模型生产的核心平台，以及商汤AIDCAI计算中心平台作为大算力AI基础设施能力，打造通用能力的多模态大模型，降低大模型的下游应用成本和门槛。

商汤“日日新SenseNova”大模型体系自2023年发布以来，每隔三个月都有显著提升，实现了万卡万参的大模型训练能力，在多个领域达到国内领先水平。商汤的生成式AI收入实现了200%的飞速增长，大模型基础设施大装置SenseCore的总算力规模突破性增长至12000 petaFLOPS，运营GPU数量达4.5万卡。

在技术开放日上，商汤发布了日日新大模型V5.0，这是国内首个有能力建立“云、端、边”全栈大模型产品矩阵的企业。商汤千亿大模型SenseChat（商量）升级到5.0，达到6000亿参数，提升了创意写作、推理、总结能力等，并在多模态交互能力上取得了显著进步。

商汤还推出了1.8B参数规模的SenseChat-Lite版本端侧大模型，其性能在基准测试中超越了同量级的大模型，并且越级比肩一些更大参数量的模型。此外，商汤还推出了企业级大模型一体机，降低企业应用大模型的门槛，并节约了推理成本。

商汤研发了多个生成式AI产品，如商量、秒画、如影、格物、琼宇、大医以及最新的小浣熊家族系列，并在5.0版本中有更新。商汤还公布了“文生视频”等领域的新技术突破，并展示了完全由商汤大模型生成的视频。

王晓刚强调，AI大模型是一个长期投入、长期竞争的过程，商汤将继续在这条路上坚定前行，并与合作伙伴、生态一起支持这些成果和基础能力。商汤的未来发展重点将是打造机器人的“大脑”，而不是实体的机器人。