比GPT-4快18倍，世界最快大模型Groq登场！每秒500 token破纪录，自研LPU是英伟达GPU 10倍

AIGC动态1年前 (2024)发布 AIera

2,718 0 0

作者信息

【原文作者】 新智元
【作者简介】 智能+中国主平台，致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展，关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响，领航中国新智能时代。
【微信号】 AI_era

文章摘要

【关键词】 Groq模型、LPU、AI速度、免费试用、基准测试

Groq模型以其惊人的速度在AI领域引起了广泛关注。这款被称为“世界上速度最快的LLM”的模型，每秒能输出近500个token，远超过ChatGPT-3.5的40个token。在完成简单代码调试问题的速度对比中，Groq不仅在输出速度上碾压了GPT-4和Gemini，而且任何人都可以免费使用。Groq提供了两种模型供用户选择：Mixtral8x7B-32k和Llama 270B-4k，并且其API完全兼容OpenAI API。

Groq的快速响应背后，是其自研的LPU（语言处理单元）技术。这种新型处理单元专为AI计算设计，采用了时序指令集计算机架构，与GPU的工作方式截然不同。LPU无需频繁从内存中加载数据，有效利用每个时钟周期，保证了稳定的延迟和吞吐量。在能效方面，LPU通过减少多线程管理的开销和避免核心资源的未充分利用，实现了更高的每瓦特计算性能。Groq的LPU在执行推理任务时，从外部内存读取的数据更少，消耗的电量也低于英伟达的GPU。

在ArtifialAnalysis.ai的LLM基准测试中，Groq的方案在多个关键性能指标上取得了优异成绩，包括延迟与吞吐量、随时间的吞吐量、总响应时间和吞吐量差异。Groq的Llama 2 70B在LPU推理引擎上的表现尤为出色，达到了每秒241个token的吞吐量，是其他大厂的两倍多。Groq的响应时间也是最少的，接收100个token后输出只需0.8秒。

尽管Groq的LPU卡仅有230MB的内存，售价高达2万美元，但其在AI处理场景中的优势明显。Groq的创新芯片设计实现了多个TSP的无缝链接，提高了可扩展性，简化了大规模AI模型的硬件需求。Groq公司宣称，其技术能够在推理任务中取代GPU的角色，为AI应用的服务带来巨大的性能提升。

Groq的快速响应和可能取代GPU的新技术，在社交媒体上引起了热烈讨论。Groq背后的公司并非新创企业，而是成立于2016年的Groq Inc.，其CEO兼联合创始人Jonathan Ross曾在谷歌设计并实现了第一代TPU芯片的核心元素。Groq的名字与马斯克的同名AI模型Grok相似，但两者并无直接关联。Groq的开发团队曾幽默地请马斯克另选一个名字，但马斯克并未对此作出回应。