
文章摘要
【关 键 词】 晶圆级芯片、计算架构、集成架构、大模型推理、AI算力
清华大学集成电路学院尹首一、胡杨研究团队在晶圆级芯片领域取得突破性进展,三项研究成果入选2025年国际计算机体系结构研讨会(ISCA)。团队构建了“计算架构–集成架构-编译映射”协同设计优化方法学,为晶圆级芯片技术提供了系统性解决方案。研究始于2020年,瞄准超高性能大模型训练与推理场景,通过计算架构和集成架构两大核心设计方法的创新,解决了晶圆级芯片的关键技术难题。
晶圆级芯片是一种颠覆传统计算形态的前沿技术,其核心在于实现“One Wafer One Chip”的超高集成度。与传统芯片相比,晶圆级芯片在算力密度、互连带宽和能效比方面具有显著优势,单机柜算力密度可达现有方案的2倍以上。该技术通过在一整片晶圆上集成高密度硅互连基板和算力芯粒,构建出约40000平方毫米的超大芯片,有效突破了传统芯片在面积和互连效率上的限制。目前国际上有特斯拉Dojo和Cerebras WSE两款成熟产品。
团队提出的三项核心研究成果分别针对晶圆级芯片的不同层面。《PD Constraint-aware Physical/Logical Topology Co-Design for Network on Wafer》聚焦计算架构设计,创新性地提出“Tick-Tock”协同设计框架,实现了物理拓扑与逻辑拓扑的优化耦合,在大模型训练任务中相比特斯拉Dojo方案提升2.39倍吞吐量。第二篇论文《Cramming a Data Center into One Cabinet》解决了集成架构难题,通过纵向面积约束引导的跨物理层协同优化方法,在相同成本约束下实现系统算力2.90倍、内存带宽11.23倍的提升。第三篇《WSC-LLM》则专注于大模型推理的编译映射问题,提出的优化方案相比GPU集群实现平均3.12倍的性能提升。
在工程应用方面,团队联合产业界成功研制出国内首台基于可重构AI芯粒的12寸晶圆级芯片验证样机。这一成果验证了在次世代工艺条件下采用晶圆级集成方式赶超先进工艺芯片的可行性,为解决芯片“卡脖子”问题提供了新思路。技术成果已反哺多家产业界合作伙伴,形成产学研用闭环。
国际科技巨头纷纷布局晶圆级芯片领域。特斯拉Dojo系统采用25颗D1芯粒集成方案,单芯片提供9PFlops算力;Cerebras WSE-3采用5nm制程,集成4万亿晶体管;台积电也在推进晶圆级系统(SoW)战略布局,预计2027年实现量产。这些进展表明晶圆级芯片正成为AI算力发展的重要方向。
清华大学团队的研究不仅填补了国内在该领域的技术空白,更为算力芯片的国产替代提供了理论基础和工程实践。通过计算架构、集成架构和编译映射的协同创新,为突破芯片技术壁垒、实现自主可控贡献了重要力量。随着AI算力需求的持续增长,晶圆级芯片有望成为下一代人工智能基础设施的核心支撑。
原文和模型
【原文链接】 阅读原文 [ 3760字 | 16分钟 ]
【原文作者】 半导体行业观察
【摘要模型】 deepseek/deepseek-v3-0324
【摘要评分】 ★★★★★