DeepSeek让英伟达H20都被疯抢,但AI推理爆发不只靠囤卡

AIGC动态1天前发布 QbitAI
58 0 0
DeepSeek让英伟达H20都被疯抢,但AI推理爆发不只靠囤卡

 

文章摘要


【关 键 词】 AI算力推理DeepSeek英伟达

英伟达H20显卡近期市场需求激增,价格大幅上涨,背后原因是AI推理需求的爆发。尽管H20的性能远不及H100,但其在推理任务中的表现足以满足需求,且价格更为低廉,因此受到市场青睐。业内人士透露,某互联网大厂已下单10-20万张H20显卡,整体市场订单量显著增加。英伟达CEO黄仁勋也在财报中提到,当前AI模型所需的算力是此前模型的100倍,推理需求成为推动算力增长的关键因素。

DeepSeek通过算法创新重构了AI算力逻辑,推动了AI计算从“训练为主”向“推理为主”的范式转变。DeepSeek开源的两款模型在架构和算法上实现了训练和推理效率的提升。其中,DeepSeek-V3采用混合专家模型(MoE)架构,通过大规模跨节点专家并行(EP)提高了GPU矩阵乘法的效率,降低了延迟。DeepSeek-R1则利用强化学习提升语言模型的推理能力,并通过FP8混合精度训练框架等技术大幅降低了训练成本。这些创新使得DeepSeek成为推动算力趋势转变的导火索。

DeepSeek的开源模型为全行业提供了一个性能优秀的替代方案,引发了全社会范围内的热潮。其低成本、高性能的特点使得大中小企业能够将DeepSeek系列模型与自身业务融合,尤其是在ToB领域,解决了企业在数据维度的顾虑。DeepSeek的开放性和非商业化考虑进一步加速了AI落地进程,推理需求因此空前爆发。

随着推理需求的增加,AI计算的需求和底层逻辑也发生了变化。相较于预训练,推理计算在硬件门槛、集群建设等方面的要求更低,超大规模集群不再是必需,小集群甚至单机将成为未来AI基础设施的主要特性。DeepSeek提出的跨节点专家并行系统体现了分布式思想,通过优化调度实现了算力的高效利用,进一步扭转了算力行业的深层逻辑。

AI基础设施(AI Infra)在推理时代承担了成本优化的重任。相较于预训练时代,推理时代对云计算和AI Infra有着全新需求,企业更倾向于选择公有云服务部署模型。AI Infra厂商通过自建IDC或分布式网络提供算力服务,优化了成本并提升了系统效率。例如,PPIO通过分布式架构大幅降低了企业的运维压力,并将成本减少了40%。此外,PPIO还通过技术创新突破了大模型推理性能的限制,为百川智能等企业提供了大规模AI推理服务。

随着AI推理需求的爆发,AI应用落地的大规模爆发即将到来。AI Infra公司通过提供高性能和低成本的基础设施,推动了AI应用的普及,用户也将迎来AI应用的免费时代。DeepSeek的崛起带动了全产业链的合作,进一步加速了大规模应用的落地。随着越来越多产业伙伴的加入,更庞大的需求和市场正在酝酿之中,AI行业即将迎来新的发展浪潮。

原文和模型


【原文链接】 阅读原文 [ 2648字 | 11分钟 ]
【原文作者】 量子位
【摘要模型】 deepseek-v3
【摘要评分】 ★★★★★

© 版权声明
“绘蛙”

相关文章

“极客训练营”

暂无评论

暂无评论...