国产大模型第一梯队玩家，为什么pick了CPU？

AIGC动态1年前 (2024)发布 QbitAI

2,259 0 0

文章摘要

随着人工智能技术的快速发展，大模型和AI应用不断涌现，市场竞争日益激烈。AIGC市场规模预计到2030年将达到4500亿人民币，应用场景从通用向行业纵深渗透。然而，大模型厂商之间的价格战和OpenAI的断供事件，使得国内厂商在降低成本、快速落地业务方面面临挑战。

在大模型时代，算力成为关键因素之一。GPU虽然在高性能上占优势，但供应不足、价格昂贵成为其硬伤。国产大模型第一梯队玩家百度智能云千帆大模型平台给出了更具”效价比”的解法，认为高端CPU同样可以胜任AI计算任务，且在AI业务流中发挥重要作用。

百度智能云千帆大模型平台自去年3月发布以来，已有超12万客户使用，累计调优模型2万个，孵化应用4.2万个。平台赋能了教育、金融、办公、医疗等多个场景，为行业数字化转型提供支撑。例如，在教育领域，平台可以自动生成高质量试题、提供个性化学习指导；在办公场景，智能写作助手可以快速生成各类专业文档；在医疗健康领域，基于医疗知识库训练的模型可以自动生成体检报告解读，提供个性化健康指导。

千帆大模型平台之所以能支撑众多AI应用，关键在于让CPU成为客户的选择之一，让”效价比”的红利普惠千行百业。百度智能云认为，行业存在大量离线LLM应用需求，如生成文章总结、摘要、数据分析等，这些场景对推理时延要求不高，但对成本较为敏感。利用平台闲时算力资源，采用低成本、易获得的CPU进行推理，可以提高资源利用率，满足用户快速部署LLM模型的需求。

以Llama-2-7B模型为例，在第四代英特尔® 至强® 可扩展处理器上，Token吞吐可达100 TPS以上，相比第三代提升60%。在低延迟场景下，同等并发下，第四代至强® 可扩展处理器的首Token时延比第三代降低50%以上。升级到第五代至强® 可扩展处理器后，吞吐可提升45%左右，首Token时延下降50%左右。千帆大模型平台团队表示，针对30B以下规模的LLM模型，采用英特尔® 至强® 可扩展处理器可以获得良好性能体验。

此外，利用充足的CPU资源，降低对AI加速卡的需求，可以降低LLM推理服务的总体拥有成本(TCO)，尤其在离线LLM推理场景中表现出色。千帆大模型平台上集成了众多主流大模型，从侧面印证了第五代英特尔® 至强® 可扩展处理器在性能上的优势。

百度智能云千帆大模型平台覆盖大模型全生命周期，提供数据标注、模型训练与评估、推理服务与应用集成等全面功能服务。采用CPU进行推理，可以扩展内存，利用闲时算力资源，降低总拥有成本。第五代英特尔® 至强® 可扩展处理器中的P Core性能核设计，能承载重负载，兼顾AI推理加速。软硬件协同优化，英特尔® AMX（高级矩阵扩展）技术为大模型推理中的矩阵乘法运算专门优化，每个时钟周期可完成高达2048个INT8运算，比上代提升8倍。

千帆大模型平台引入了针对英特尔® 至强® 可扩展平台深度优化的大模型推理软件解决方案xFasterTransformer (xFT)，充分利用AMX/AVX512等指令集，采用低精度量化，支持超大规模模型的多机多卡并行推理。

选择硬件平台不仅关乎设备采购价格，还影响后续维护成本和人才储备成本。高性价比的算力基础设施与先进的大模型算法和平台软件相辅相成，让开发者更平滑地应用构建业务，最大化云计算平台的商业价值。

大模型正从实验室走向产业，成为大众可用的工具。要实现”快好省”，算力基础设施选择至关重要。优化良好的高端CPU不仅能提供足够算力，还具有广泛的部署基础、成熟的软件生态和安全保障，开始受到越来越多业界玩家的青睐。以英特尔® 至强® 系列为代表的x86架构CPU，拥有成熟软件生态和应用基础，降低开发难度和迁移成本。企业级用户还可以利用CPU内置的多层次安全技术，实现全栈保护。

充分利用CPU进行推理，让AI从”烧钱游戏”变为”普惠科技”，是AIGC产业应对算力门槛、推动规模化应用落地的关键。未来，随着技术创新和生态完善，这一模式将为更多企业创造价值，为产业发展注入新动力。CPU在AI全流程中还能高效完成数据预处理、特征工程等关键步骤，支持机器学习和图分析的数据库主要构建在CPU之上。英特尔随着人工智能技术的快速发展，AIGC市场规模预计到2030年将达到4500亿人民币，应用场景从通用向行业纵深渗透。然而，大模型厂商之间的价格战和OpenAI的断供事件，使得国内厂商在降低成本、快速落地业务方面面临挑战。

百度智能云千帆大模型平台作为国产大模型第一梯队玩家，提出了以CPU为核心的解决方案，强调高端CPU在AI计算任务中的重要性。平台自去年3月发布以来，已有超12万客户使用，累计调优模型2万个，孵化应用4.2万个，赋能教育、金融、办公、医疗等多个场景，为行业数字化转型提供支撑。

千帆大模型平台之所以能支撑众多AI应用，关键在于让CPU成为客户的选择之一，让”效价比”的红利普惠千行百业。百度智能云认为，行业存在大量离线LLM应用需求，如生成文章总结、摘要、数据分析等，这些场景对推理时延要求不高，但对成本较为敏感。利用平台闲时算力资源，采用低成本、易获得的CPU进行推理，可以提高资源利用率，满足用户快速部署LLM模型的需求。

以Llama-2-7B模型为例，在第四代英特尔® 至强® 可扩展处理器上，Token吞吐可达100 TPS以上，相比第三代提升60%。升级到第五代至强® 可扩展处理器后，吞吐可提升45%左右，首Token时延下降50%左右。千帆大模型平台团队表示，针对30B以下规模的LLM模型，采用英特尔® 至强® 可扩展处理器可以获得良好性能体验。