GPU推理时代终结?世界最大芯片加持推理狂飙20倍,英伟达H100也被干趴!

AIGC动态4个月前发布 AIera
796 0 0
GPU推理时代终结?世界最大芯片加持推理狂飙20倍,英伟达H100也被干趴!

 

文章摘要


【关 键 词】 AI推理CerebrasWSE-3芯片性能提升成本优势

Cerebras公司最近推出了全球最快的AI推理架构——Cerebras Inference,其推理速度远超当前最先进的GPU。在运行Llama3.1 8B模型时,Cerebras Inference能够以1800 token/s的速率生成文本,相比之前90 token/s的速度有了显著提升。这种高速推理能力使得文档总结、代码生成等任务的响应速度极快。

Cerebras Inference的推理速度之所以能够达到如此高的水平,主要得益于其自研的第三代芯片Wafer Scale Engine(WSE-3)。WSE-3单个芯片上集成了44GB SRAM,具备21 PB/s的内存带宽,消除了对外部内存的需求,解决了内存带宽瓶颈问题。这使得Cerebras Inference在速度、精度和成本上都具有显著优势。

在价格方面,Cerebras Inference的性价比非常高。例如,Llama 3.1 8B模型每百万token的价格仅为10美分,远低于其他平台。此外,Cerebras Inference还提供了每天100万个免费token的福利,以鼓励开发者和企业使用。

Cerebras Inference的高速推理能力对于AI模型的性能提升具有重要意义。例如,在代码生成等严苛任务中,通过使用新技术如scaffolding,可以实现超过10倍的性能提升。这些技术需要处理大量的token,因此缩短处理时间对于实现更复杂的AI工作流程至关重要。

值得注意的是,虽然Cerebras Inference在速度和价格上具有优势,但其上下文长度仅为8k,相比其他平台的128k有所不足。不过,Cerebras公司表示未来几周将测试更大参数版本的模型,如Llama3-405B、Mistral Large等,以进一步提升性能。

总之,Cerebras Inference的推出为AI推理领域带来了革命性的变革,其高速、高精度和高性价比的特点有望推动AI技术在更多领域的应用和发展。

“极客训练营”

原文和模型


【原文链接】 阅读原文 [ 2290字 | 10分钟 ]
【原文作者】 新智元
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★☆

© 版权声明
“绘蛙”

相关文章

暂无评论

暂无评论...