榨干3000元显卡，跑通千亿级大模型的秘方来了

1,600 0 0

文章摘要

一体机厂商正在积极采用英特尔锐炫™显卡与至强®W处理器的组合，因其成本低廉且性能强劲。这种组合使得一体机能够在10万元以内的成本下，高效运行671B的DeepSeek大模型，达到每秒10 tokens的输出速度。通过实测，单人使用一体机时，速度可达32 tokens/s，即便在多人同时使用时，性能依然稳定。这种一体机不仅适用于大模型推理，还能执行视频分析、8K视频编解码等高负载任务，具备多用途性。

英特尔锐炫™显卡专为AI和图形处理设计，采用Xe架构，内置XMX AI加速引擎，支持多种主流AI框架。它特别适合边缘计算场景，提供低功耗和小尺寸选项，支持多卡并联，性能显著提升。至强®W处理器则具备高达60核的配置，内置AMX技术，能够加速中小规模参数的大语言模型推理。两者通过统一的计算架构和优化工具链协同工作，实现了1+1＞2的效果。例如，IPEX-LLM为大模型优化，OpenVINO™工具套件优化AI推理，oneAPI统一编程模型简化开发流程。

在英特尔架构一体机上部署DeepSeek的过程相对简单。首先需要配置系统环境，更新GPU驱动版本，并使用英特尔IPEX-LLM版本的llama.cpp框架。通过设置环境变量，可以利用GPU加速运行671B版本的DeepSeek-R1。FlashMoE工具进一步优化了MoE模型的推理性能，使得在单路至强®W处理器加2-4块锐炫™A770显卡的配置下，能够获得接近10 Token/s的性能表现，满足企业级生成式AI应用的需求。

一体机的低成本和高效率使其成为企业部署大模型的理想选择。与传统分散式设备相比，一体机在硬件采购、软件授权和初始配置等方面的资金投入较少，且易于维护和部署。其高度集成化设计优化了硬件兼容性，减少了硬件不匹配的故障。此外，一体机常驻用户办公与业务环境边缘，能够加速操作，减少数据传输距离和时间，提升业务处理速度和响应效率。

随着大模型推理普及化的趋势，一体机的优势愈发明显。英特尔联合Hugging Face、Anyscale等合作伙伴推出的企业AI开放平台（OPEA），旨在解决生成式AI技术的工具碎片化问题，并通过“Powered By OPEA”认证体系确保合作伙伴间生态的互联互通。这一认证体系将成为企业选择生成式AI组件的重要信任基准，推动AI产业生态的完善和标准化进程。

总的来说，基于英特尔解决方案的一体机在成本、性能和部署灵活性方面表现出色，为企业提供了高效且经济的大模型推理解决方案。随着AI技术的不断发展，一体机将在更多应用场景中发挥重要作用，推动AI服务的规模化落地。