文章摘要
【关 键 词】 AI技术、市场竞争、算力关键、CPU应用、产业转型
随着人工智能技术的快速发展,大模型和AI应用不断涌现,市场竞争日益激烈。AIGC市场规模预计到2030年将达到4500亿人民币,应用场景从通用向行业纵深渗透。然而,大模型厂商之间的价格战和OpenAI的断供事件,使得国内厂商在降低成本、快速落地业务方面面临挑战。
在大模型时代,算力成为关键因素之一。GPU虽然在高性能上占优势,但供应不足、价格昂贵成为其硬伤。国产大模型第一梯队玩家百度智能云千帆大模型平台给出了更具”效价比”的解法,认为高端CPU同样可以胜任AI计算任务,且在AI业务流中发挥重要作用。
百度智能云千帆大模型平台自去年3月发布以来,已有超12万客户使用,累计调优模型2万个,孵化应用4.2万个。平台赋能了教育、金融、办公、医疗等多个场景,为行业数字化转型提供支撑。例如,在教育领域,平台可以自动生成高质量试题、提供个性化学习指导;在办公场景,智能写作助手可以快速生成各类专业文档;在医疗健康领域,基于医疗知识库训练的模型可以自动生成体检报告解读,提供个性化健康指导。
千帆大模型平台之所以能支撑众多AI应用,关键在于让CPU成为客户的选择之一,让”效价比”的红利普惠千行百业。百度智能云认为,行业存在大量离线LLM应用需求,如生成文章总结、摘要、数据分析等,这些场景对推理时延要求不高,但对成本较为敏感。利用平台闲时算力资源,采用低成本、易获得的CPU进行推理,可以提高资源利用率,满足用户快速部署LLM模型的需求。
以Llama-2-7B模型为例,在第四代英特尔® 至强® 可扩展处理器上,Token吞吐可达100 TPS以上,相比第三代提升60%。在低延迟场景下,同等并发下,第四代至强® 可扩展处理器的首Token时延比第三代降低50%以上。升级到第五代至强® 可扩展处理器后,吞吐可提升45%左右,首Token时延下降50%左右。千帆大模型平台团队表示,针对30B以下规模的LLM模型,采用英特尔® 至强® 可扩展处理器可以获得良好性能体验。
此外,利用充足的CPU资源,降低对AI加速卡的需求,可以降低LLM推理服务的总体拥有成本(TCO),尤其在离线LLM推理场景中表现出色。千帆大模型平台上集成了众多主流大模型,从侧面印证了第五代英特尔® 至强® 可扩展处理器在性能上的优势。
百度智能云千帆大模型平台覆盖大模型全生命周期,提供数据标注、模型训练与评估、推理服务与应用集成等全面功能服务。采用CPU进行推理,可以扩展内存,利用闲时算力资源,降低总拥有成本。第五代英特尔® 至强® 可扩展处理器中的P Core性能核设计,能承载重负载,兼顾AI推理加速。软硬件协同优化,英特尔® AMX(高级矩阵扩展)技术为大模型推理中的矩阵乘法运算专门优化,每个时钟周期可完成高达2048个INT8运算,比上代提升8倍。
千帆大模型平台引入了针对英特尔® 至强® 可扩展平台深度优化的大模型推理软件解决方案xFasterTransformer (xFT),充分利用AMX/AVX512等指令集,采用低精度量化,支持超大规模模型的多机多卡并行推理。
选择硬件平台不仅关乎设备采购价格,还影响后续维护成本和人才储备成本。高性价比的算力基础设施与先进的大模型算法和平台软件相辅相成,让开发者更平滑地应用构建业务,最大化云计算平台的商业价值。
大模型正从实验室走向产业,成为大众可用的工具。要实现”快好省”,算力基础设施选择至关重要。优化良好的高端CPU不仅能提供足够算力,还具有广泛的部署基础、成熟的软件生态和安全保障,开始受到越来越多业界玩家的青睐。以英特尔® 至强® 系列为代表的x86架构CPU,拥有成熟软件生态和应用基础,降低开发难度和迁移成本。企业级用户还可以利用CPU内置的多层次安全技术,实现全栈保护。
充分利用CPU进行推理,让AI从”烧钱游戏”变为”普惠科技”,是AIGC产业应对算力门槛、推动规模化应用落地的关键。未来,随着技术创新和生态完善,这一模式将为更多企业创造价值,为产业发展注入新动力。CPU在AI全流程中还能高效完成数据预处理、特征工程等关键步骤,支持机器学习和图分析的数据库主要构建在CPU之上。英特尔随着人工智能技术的快速发展,AIGC市场规模预计到2030年将达到4500亿人民币,应用场景从通用向行业纵深渗透。然而,大模型厂商之间的价格战和OpenAI的断供事件,使得国内厂商在降低成本、快速落地业务方面面临挑战。
百度智能云千帆大模型平台作为国产大模型第一梯队玩家,提出了以CPU为核心的解决方案,强调高端CPU在AI计算任务中的重要性。平台自去年3月发布以来,已有超12万客户使用,累计调优模型2万个,孵化应用4.2万个,赋能教育、金融、办公、医疗等多个场景,为行业数字化转型提供支撑。
千帆大模型平台之所以能支撑众多AI应用,关键在于让CPU成为客户的选择之一,让”效价比”的红利普惠千行百业。百度智能云认为,行业存在大量离线LLM应用需求,如生成文章总结、摘要、数据分析等,这些场景对推理时延要求不高,但对成本较为敏感。利用平台闲时算力资源,采用低成本、易获得的CPU进行推理,可以提高资源利用率,满足用户快速部署LLM模型的需求。
以Llama-2-7B模型为例,在第四代英特尔® 至强® 可扩展处理器上,Token吞吐可达100 TPS以上,相比第三代提升60%。升级到第五代至强® 可扩展处理器后,吞吐可提升45%左右,首Token时延下降50%左右。千帆大模型平台团队表示,针对30B以下规模的LLM模型,采用英特尔® 至强® 可扩展处理器可以获得良好性能体验。
千帆大模型平台引入了针对英特尔® 至强® 可扩展平台深度优化的大模型推理软件解决方案xFasterTransformer (xFT),充分利用AMX/AVX512等指令集,采用低精度量化,支持超大规模模型的多机多卡并行推理。
选择硬件平台不仅关乎设备采购价格,还影响后续维护成本和人才储备成本。高性价比的算力基础设施与先进的大模型算法和平台软件相辅相成,让开发者更平滑地应用构建业务,最大化云计算平台的商业价值。
大模型正从实验室走向产业,成为大众可用的工具。要实现”快好省”,算力基础设施选择至关重要。优化良好的高端CPU不仅能提供足够算力,还具有广泛的部署基础、成熟的软件生态和安全保障,开始受到越来越多业界玩家的青睐。以英特尔® 至强® 系列为代表的x86架构CPU,拥有成熟软件生态和应用基础,降低开发难度和迁移成本。企业级用户还可以利用CPU内置的多层次安全技术,实现全栈保护。
充分利用CPU进行推理,让AI从”烧钱游戏”变为”普惠科技”,是AIGC产业应对算力门槛、推动规模化应用落地的关键。未来,随着技术创新和生态完善,这一模式将为更多企业创造价值,为产业发展注入新动力。CPU在AI全流程中还能高效完成数据预处理、特征工程等关键步骤,支持机器学习和图分析的数据库主要构建在CPU之上。
原文和模型
【原文链接】 阅读原文 [ 3474字 | 14分钟 ]
【原文作者】 量子位
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★☆