股价久违飙涨，商汤要用自己的Scaling law挑战GPT4

AIGC动态2年前 (2024)发布 Si-Planet

3,505 0 0

文章摘要

商汤科技近期因其大模型SenseNova 5.0的发布会受到市场的极大关注，导致其股票在港交所暂停交易。该模型被视为对标OpenAI的GPT-4 Turbo，显示出中国大模型行业追赶国际先进水平的决心。商汤科技在短短三个月内，从超越GPT-3.5的SenseNova 4.0发展到全面对标GPT-4 Turbo的SenseNova 5.0，体现了其在大模型领域的快速进步。

商汤科技的进步得益于尺度定律（Scaling laws）的应用，这是大语言模型中的一个基本原理。尺度定律指出，随着数据、模型和算力规模的提升，模型的能力也会不断增强。商汤科技遵循这一原理，并通过科学实验得到数学公式，能够预测下一代大模型的性能，而不是盲目尝试。商汤科技董事长兼CEO徐立提出了可预测性和保序性两个假设条件，指导公司在有限的研发资源上找到最优的模型架构和数据配方。

商汤科技的SenseNova 5.0采用了10T+ tokens的中英文预训练数据，并通过精细设计的清洗处理，形成高质量的基础数据。此外，公司还合成构造了思维链数据，预训练过程中大规模采用逻辑合成数据，提升模型的推理、数学和编程能力。

商汤科技还面临尺度定律的物理极限，如数据的缺乏和硬件连接的极限。徐立提到，这需要对硬件和算法进行新的设计，算法设计和算力设施需要联合优化。

在端侧产品方面，商汤发布了1.8B参数的SenseChat-Lite，超过了所有开源2B的同级别模型，并且领先于LLaMA2等7B、13B模型。公司还推出了针对端侧业务的SDK，涵盖多种场景，并适配多种芯片和终端设备。此外，商汤还推出了企业级大模型一体机，支持企业级千亿模型加速和知识检索硬件加速，实现本地化部署。

商汤科技还发布了小浣熊代码大模型一体机轻量版，帮助企业开发人员更高效地编写、理解和维护代码。公司还与华为昇腾共同打造面向金融、医疗、政务、代码等大模型产业生态。

商汤科技的技术交流日还强调了与行业伙伴的合作，这体现了公司在不同领域应用大模型能力的潜力，以及进一步深化行业合作的愿景。商汤科技的快速发展和应用落地能力的提升，需要更多的合作伙伴。

最后，徐立预告了即将发布的文生视频平台，这可能是商汤在视觉领域追赶国际先进水平的下一个目标。商汤科技的快速增长也反映在其生成式AI业务的收入上，该业务收入达到了12亿元，取得了200%的大增长，占公司总收入的35%。

总的来说，商汤科技在大模型领域的快速发展和应用落地能力的提升，显示了其在AI2.0时代的竞争力。公司需要在大模型商业化爆发前跑得足够快，才能够吃到第一波红利，解决亏损问题，回到应得的位置。未来几年，生成式AI可能将成为商汤最大的收入来源，这可能是商汤所需要的一场革命。