GPU推理时代终结？世界最大芯片加持推理狂飙20倍，英伟达H100也被干趴！

2,194 0 0

文章摘要

【关键词】 AI推理、Cerebras、WSE-3芯片、性能提升、成本优势

Cerebras公司最近推出了全球最快的AI推理架构——Cerebras Inference，其推理速度远超当前最先进的GPU。在运行Llama3.1 8B模型时，Cerebras Inference能够以1800 token/s的速率生成文本，相比之前90 token/s的速度有了显著提升。这种高速推理能力使得文档总结、代码生成等任务的响应速度极快。

Cerebras Inference的推理速度之所以能够达到如此高的水平，主要得益于其自研的第三代芯片Wafer Scale Engine（WSE-3）。WSE-3单个芯片上集成了44GB SRAM，具备21 PB/s的内存带宽，消除了对外部内存的需求，解决了内存带宽瓶颈问题。这使得Cerebras Inference在速度、精度和成本上都具有显著优势。

在价格方面，Cerebras Inference的性价比非常高。例如，Llama 3.1 8B模型每百万token的价格仅为10美分，远低于其他平台。此外，Cerebras Inference还提供了每天100万个免费token的福利，以鼓励开发者和企业使用。

Cerebras Inference的高速推理能力对于AI模型的性能提升具有重要意义。例如，在代码生成等严苛任务中，通过使用新技术如scaffolding，可以实现超过10倍的性能提升。这些技术需要处理大量的token，因此缩短处理时间对于实现更复杂的AI工作流程至关重要。

值得注意的是，虽然Cerebras Inference在速度和价格上具有优势，但其上下文长度仅为8k，相比其他平台的128k有所不足。不过，Cerebras公司表示未来几周将测试更大参数版本的模型，如Llama3-405B、Mistral Large等，以进一步提升性能。

总之，Cerebras Inference的推出为AI推理领域带来了革命性的变革，其高速、高精度和高性价比的特点有望推动AI技术在更多领域的应用和发展。