文章摘要
【关 键 词】 CPU、AI推理、性能提升、京东云、英特尔至强
随着大语言模型的兴起,传统的看法认为GPU在AI应用中占据主导地位,但近期的趋势和实践表明,CPU在很多AI推理场景中展现出了其适用性和优势。权威期刊IEEE Spectrum和AI研究人员指出,CPU在某些情况下可能是更合适的选择,尤其是在大模型的发展逐渐从训练转向推理的背景下。
京东云选择了最新的第五代英特尔至强可扩展处理器来搭载其新一代服务器,这一决策带来了显著的性能提升。新服务器整体性能提升了23%,在AI推理方面,计算机视觉推理性能提升了38%,Llama 2推理性能提升了51%。这些突破得益于英特尔AMX(高级矩阵扩展)技术,它专为矩阵运算设计,能够显著加速AI应用。
英特尔AMX技术通过引入新的矩阵处理框架,包括二维寄存器文件和能够执行操作的加速器,优化了向量检索等涉及大量矩阵乘法运算的任务。与此同时,英特尔oneDNN作为软件搭档,提供了一种高效的优化实现方式,简化了编程模式,减轻了工程师的编程负担,提升了开发效率。
除了性能上的提升,新一代京东云服务器还通过英特尔AMX等模块实现了对中小规模参数模型的快速响应,大幅降低了成本。此外,英特尔Trust Domain Extension(TDX)技术为服务器提供了更可靠的安全防护,通过信任域(TD)虚拟环境和多密钥全内存加密技术,实现了不同TD、实例以及系统管理软件之间的相互隔离,保护了客户的应用和数据。
AI进入2.0时代,推理算力变得越来越重要。CPU因其通用计算能力、AI加速潜力、灵活的应用适配和广泛的可用性,其价值被重新认识。随着软硬件适配的不断深入和云边端协同的加速落地,CPU在AI推理实践中的应用潜力将进一步被挖掘。
量子位开设的《最“in”AI》专栏旨在科普CPU在AI推理新时代的应用,从技术科普、行业案例到实战优化等多角度解读CPU在AI推理加速中的实践成果,帮助人们更好地利用CPU提升大模型应用的性能和效率。更多关于CPU支持云计算的解决方案可以通过点击“阅读原文”获取。
原文和模型
【原文链接】 阅读原文 [ 2018字 | 9分钟 ]
【原文作者】 量子位
【摘要模型】 gpt-4
【摘要评分】 ★★★★★