比GPT-4快18倍,世界最快大模型Groq登场!每秒500 token破纪录,自研LPU是英伟达GPU 10倍

AIGC动态10个月前发布 AIera
1,540 0 0

作者信息


【原文作者】 新智元
【作者简介】 智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。
【微 信 号】 AI_era

比GPT-4快18倍,世界最快大模型Groq登场!每秒500 token破纪录,自研LPU是英伟达GPU 10倍
 

文章摘要


【关 键 词】 Groq模型LPUAI速度免费试用基准测试

Groq模型以其惊人的速度在AI领域引起了广泛关注。这款被称为“世界上速度最快的LLM”的模型,每秒能输出近500个token,远超过ChatGPT-3.5的40个token。在完成简单代码调试问题的速度对比中,Groq不仅在输出速度上碾压了GPT-4和Gemini,而且任何人都可以免费使用。Groq提供了两种模型供用户选择:Mixtral8x7B-32k和Llama 270B-4k,并且其API完全兼容OpenAI API。

Groq的快速响应背后,是其自研的LPU(语言处理单元)技术。这种新型处理单元专为AI计算设计,采用了时序指令集计算机架构,与GPU的工作方式截然不同。LPU无需频繁从内存中加载数据,有效利用每个时钟周期,保证了稳定的延迟和吞吐量。在能效方面,LPU通过减少多线程管理的开销和避免核心资源的未充分利用,实现了更高的每瓦特计算性能。Groq的LPU在执行推理任务时,从外部内存读取的数据更少,消耗的电量也低于英伟达的GPU。

在ArtifialAnalysis.ai的LLM基准测试中,Groq的方案在多个关键性能指标上取得了优异成绩,包括延迟与吞吐量、随时间的吞吐量、总响应时间和吞吐量差异。Groq的Llama 2 70B在LPU推理引擎上的表现尤为出色,达到了每秒241个token的吞吐量,是其他大厂的两倍多。Groq的响应时间也是最少的,接收100个token后输出只需0.8秒。

尽管Groq的LPU卡仅有230MB的内存,售价高达2万美元,但其在AI处理场景中的优势明显。Groq的创新芯片设计实现了多个TSP的无缝链接,提高了可扩展性,简化了大规模AI模型的硬件需求。Groq公司宣称,其技术能够在推理任务中取代GPU的角色,为AI应用的服务带来巨大的性能提升。

Groq的快速响应和可能取代GPU的新技术,在社交媒体上引起了热烈讨论。Groq背后的公司并非新创企业,而是成立于2016年的Groq Inc.,其CEO兼联合创始人Jonathan Ross曾在谷歌设计并实现了第一代TPU芯片的核心元素。Groq的名字与马斯克的同名AI模型Grok相似,但两者并无直接关联。Groq的开发团队曾幽默地请马斯克另选一个名字,但马斯克并未对此作出回应。

原文信息


【原文链接】 阅读原文
【原文字数】 2498
【阅读时长】 9分钟

© 版权声明
“绘蛙”

相关文章

暂无评论

暂无评论...