股价久违飙涨,商汤要用自己的Scaling law挑战GPT4

AIGC动态8个月前发布 Si-Planet
1,110 0 0
股价久违飙涨,商汤要用自己的Scaling law挑战GPT4

 

文章摘要


【关 键 词】 商汤科技大模型技术交流行业应用市场关注

商汤科技近期因其大模型SenseNova 5.0的发布会受到市场的极大关注,导致其股票在港交所暂停交易。该模型被视为对标OpenAI的GPT-4 Turbo,显示出中国大模型行业追赶国际先进水平的决心。商汤科技在短短三个月内,从超越GPT-3.5的SenseNova 4.0发展到全面对标GPT-4 Turbo的SenseNova 5.0,体现了其在大模型领域的快速进步。

商汤科技的进步得益于尺度定律(Scaling laws)的应用,这是大语言模型中的一个基本原理。尺度定律指出,随着数据、模型和算力规模的提升,模型的能力也会不断增强。商汤科技遵循这一原理,并通过科学实验得到数学公式,能够预测下一代大模型的性能,而不是盲目尝试。商汤科技董事长兼CEO徐立提出了可预测性和保序性两个假设条件,指导公司在有限的研发资源上找到最优的模型架构和数据配方。

商汤科技的SenseNova 5.0采用了10T+ tokens的中英文预训练数据,并通过精细设计的清洗处理,形成高质量的基础数据。此外,公司还合成构造了思维链数据,预训练过程中大规模采用逻辑合成数据,提升模型的推理、数学和编程能力。

商汤科技还面临尺度定律的物理极限,如数据的缺乏和硬件连接的极限。徐立提到,这需要对硬件和算法进行新的设计,算法设计和算力设施需要联合优化。

在端侧产品方面,商汤发布了1.8B参数的SenseChat-Lite,超过了所有开源2B的同级别模型,并且领先于LLaMA2等7B、13B模型。公司还推出了针对端侧业务的SDK,涵盖多种场景,并适配多种芯片和终端设备。此外,商汤还推出了企业级大模型一体机,支持企业级千亿模型加速和知识检索硬件加速,实现本地化部署。

商汤科技还发布了小浣熊代码大模型一体机轻量版,帮助企业开发人员更高效地编写、理解和维护代码。公司还与华为昇腾共同打造面向金融、医疗、政务、代码等大模型产业生态。

商汤科技的技术交流日还强调了与行业伙伴的合作,这体现了公司在不同领域应用大模型能力的潜力,以及进一步深化行业合作的愿景。商汤科技的快速发展和应用落地能力的提升,需要更多的合作伙伴。

最后,徐立预告了即将发布的文生视频平台,这可能是商汤在视觉领域追赶国际先进水平的下一个目标。商汤科技的快速增长也反映在其生成式AI业务的收入上,该业务收入达到了12亿元,取得了200%的大增长,占公司总收入的35%。

总的来说,商汤科技在大模型领域的快速发展和应用落地能力的提升,显示了其在AI2.0时代的竞争力。公司需要在大模型商业化爆发前跑得足够快,才能够吃到第一波红利,解决亏损问题,回到应得的位置。未来几年,生成式AI可能将成为商汤最大的收入来源,这可能是商汤所需要的一场革命。

原文和模型


【原文链接】 阅读原文 [ 3179字 | 13分钟 ]
【原文作者】 硅星人Pro
【摘要模型】 gpt-4
【摘要评分】 ★★★★★

© 版权声明
“绘蛙”

相关文章

暂无评论

暂无评论...