论文荣登计算机体系结构顶会ISCA,芯片架构成为边缘AI最佳并行计算选择
文章摘要
【关 键 词】 AI大模型、边缘AI、可重构计算、RPP架构、高性能
随着AI大模型的快速发展,对GPU的需求不断增长,同时边缘AI应用的兴起也推动了边缘AI服务器和加速处理器市场的增长。在众多计算架构中,可重构计算架构CGRA因其高能效和灵活性成为边缘AI的理想选择。芯动力提出的可重构并行处理器(RPP)架构在性能和能效上超越了传统CGRA,成为边缘AI服务器和AI PC的理想选择。
边缘AI是将AI算法嵌入到数据源附近的设备中,以实现实时数据处理和分析。相比云端AI,边缘AI在智能监控、自动驾驶等领域具有更低的延迟和更高的实时性。Gartner预测,AI服务器市场将保持高速增长,其中推理型服务器将成为市场主流。中国AI服务器市场规模也将持续扩大,边缘计算服务器市场增速显著。
在边缘AI计算架构方面,英伟达的GPGPU虽然在云端市场占据主导地位,但在边缘场景中存在高功耗和高成本的问题。而基于DSA的ASIC设计,如谷歌的TPU和三星的NPU,虽然提供了高性能和节能解决方案,但专用设计限制了其通用性。FPGA虽然具有可重构性,但存在面积和功率开销问题。相比之下,CGRA提供了高性能并行计算能力,且具有低功耗和小尺寸优势,是边缘AI的理想选择。
芯动力提出的RPP架构在CGRA基础上进行了改进,具有准静态可重构阵列和多线程SIMT编程模型,更加适合大规模并行计算。RPP架构采用环形可重构处理器、分层式内存设计和兼容CUDA的软件栈,实现了高效灵活的内存访问和硬件优化。R8芯片作为基于RPP架构的处理器,在能效和性能上超越了英伟达的边缘GPU,展现出RPP架构的优势。
RPP架构得到了国际学术界的认可。在ISCA 2024会议上,关于RPP处理器架构的论文被收录,芯动力与顶尖学府的团队共同展示了RPP在边缘计算领域的创新和突破。RPP的性能全面超越了市场上的GPU,特别是在延迟、功耗和体积方面表现出色。
总之,随着AI应用向边缘端渗透,边缘AI服务器和加速处理器将迎来快速发展。RPP架构凭借其高性能、低功耗和灵活性,成为边缘AI并行计算的理想选择。芯动力的RPP处理器芯片有望在边缘AI应用场景中得到广泛应用和认可。
原文和模型
【原文链接】 阅读原文 [ 6755字 | 28分钟 ]
【原文作者】 机器之心
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★★