替代HBM,微软探索新方案

AIGC动态4小时前发布 admin
45 0 0
替代HBM,微软探索新方案

 

文章摘要


【关 键 词】 AI集群MRM内存存储技术HBM挑战能效提升

AI集群中高带宽内存(HBM)的局限性促使微软研究院团队提出一种新型内存——托管保留内存(MRM)。MRM旨在更有效地存储AI推理工作负载的关键数据结构,通过放弃长期数据保留和写入性能,以提高读取吞吐量、能源效率和容量等关键指标的性能。与传统的存储技术相比,MRM不以长期保留时间为目标,而是提供较短的保留时间,从而在成本和性能上具有优势。

存储领域一直存在非易失性和易失性存储技术的二元化。DRAM作为易失性存储器,而NAND和NOR闪存是非易失性存储器的代表。尽管有其他存储技术如RRAM、MRAM和PCM具有非易失性的潜力,但它们未能取代DRAM,因为它们未能在成本和IO性能上与DRAM竞争。MRM作为一种新的内存类别,与易失性DRAM不同,它可以在没有电源的情况下保留数据,但不以长期保留时间为目标,从而在读取吞吐量、能源效率和容量上超越DRAM和HBM。

基础模型的工作负载与传统工作负载不同,它们是内存密集型的,具有不同的内存访问模式和要求。推理依赖于模型权重、KV缓存和模型激活三个主要的内存数据结构,其中模型权重和KV缓存占用了大部分内存容量。推理过程中,会读取每个生成的token的整个自注意力数据和权重,产生大量带宽需求。尽管以读取为主,但推理仍然需要高写入速率。

HBM因其高密度和高吞吐量而被用于AI加速器,但其面临扩展密度和制造工艺的挑战,且成本高昂。MRM提供了一种新的解决方案,它可能满足AI集群的要求,具有更高的密度和/或更低的总拥有成本(TCO)/TB潜力。MRM的出现为计算机系统社区带来了一系列挑战和机遇,包括保留感知数据放置和调度、轻量级内存控制器、动态可配置内存和保留感知错误更正等。

总之,AI工作负载的出现及其对HBM内存的依赖凸显了HBM的局限性。MRM作为一种新型内存,可以与HBM共存,允许使用最初为存储类内存(SCM)提出的技术,但会牺牲保留和其他指标来换取对AI工作负载至关重要的改进性能指标。通过放宽保留时间要求,MRM可以潜在地使现有的SCM技术提供更好的读取吞吐量、能效和密度。

“极客训练营”

原文和模型


【原文链接】 阅读原文 [ 6596字 | 27分钟 ]
【原文作者】 半导体行业观察
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★★

© 版权声明
“绘蛙”

相关文章

暂无评论

暂无评论...