上交大冷静文:模型发展需要和芯片、系统厂商协同

AIGC动态5小时前发布 aitechtalk
65 0 0
上交大冷静文:模型发展需要和芯片、系统厂商协同

 

文章摘要


【关 键 词】 芯片向量量化大模型推理优化数据流

上海交通大学与魔形智能联合研究团队在HPCA 2025会议上发表了论文《VQ-LLM: High-performance Code Generation for Vector Quantization Augmented LLM Inference》,提出了VQ-LLM框架,通过分层代码本缓存和代码本中心计算引擎两大核心技术,成功实现了超过50%的推理延迟降低,性能超越同比特宽度的传统逐元素量化方法。这一突破为向量量化(VQ)技术的实际部署提供了可行方案,在保持大语言模型高精度的同时,显著提升了推理效率。

论文的主要负责人冷静文教授指出,向量量化的优势在于其极限、等效的比特压缩位宽比单元素量化低很多,这使得向量量化在大模型压缩中具有显著优势。冷静文团队的研究兴趣主要集中在芯片架构和硬件互联方面,特别是数据流芯片的设计和优化。他认为,国产芯片的发展需要避免照抄英伟达的设计方法,而应通过原创性思考,探索数据流芯片等新路径。

在向量量化与大模型压缩方面,冷静文团队与魔形智能合作,提出了基于向量量化的压缩方法,通过挖掘向量组内元素的相关性,实现了更高效的压缩。相比于单元素量化,向量量化在极限压缩位宽上具有明显优势,尤其是在大模型推理中的应用,能够显著提升效率。团队的研究还表明,向量量化不仅适用于推理,未来还可能扩展到训练过程中,进一步优化大模型的整体性能。

关于国产芯片的发展,冷静文强调,国产芯片厂商需要构建开放的生态,避免闭门造车,同时要解决高带宽内存设计等关键技术问题。他提到,英伟达的CUDA生态和HBM技术是其成功的关键,国产芯片厂商可以借鉴这些经验,但更重要的是要有自己的创新。例如,通过数据流芯片的设计,国产芯片可以在未来芯片架构和编程方法上取得突破。

冷静文还指出,大集群优化和超节点设计是未来芯片发展的重要方向。英伟达的NVL72和华为的CloudMatrix 384等超节点设计,展示了高速互联域在大规模集群中的重要性。国产芯片厂商需要在这些领域进行更多探索,以提升芯片的性能和竞争力。

在系统优化方面,冷静文认为,大模型智能体的多次调用和系统支持是未来需要解决的关键问题。芯片、系统和模型厂商的协同合作,将推动大模型架构的创新和降本增效。他建议,国产芯片厂商应结合新的模型架构,如MoE、NSA模型等,进行硬件设计优化,同时推动模型的小型化和轻量化,以降低部署成本。

总的来说,冷静文团队的研究为向量量化技术在大模型中的应用提供了新的思路,国产芯片厂商通过原创性思考和生态构建,有望在未来芯片架构和编程方法上取得突破,推动国产芯片的进一步发展。

原文和模型


【原文链接】 阅读原文 [ 5618字 | 23分钟 ]
【原文作者】 AI科技评论
【摘要模型】 deepseek-v3
【摘要评分】 ★★★★★

© 版权声明
“绘蛙”

相关文章

“极客训练营”

暂无评论

暂无评论...