
文章摘要
一体机厂商正在积极采用英特尔锐炫™显卡与至强®W处理器的组合,因其成本低廉且性能强劲。这种组合使得一体机能够在10万元以内的成本下,高效运行671B的DeepSeek大模型,达到每秒10 tokens的输出速度。通过实测,单人使用一体机时,速度可达32 tokens/s,即便在多人同时使用时,性能依然稳定。这种一体机不仅适用于大模型推理,还能执行视频分析、8K视频编解码等高负载任务,具备多用途性。
英特尔锐炫™显卡专为AI和图形处理设计,采用Xe架构,内置XMX AI加速引擎,支持多种主流AI框架。它特别适合边缘计算场景,提供低功耗和小尺寸选项,支持多卡并联,性能显著提升。至强®W处理器则具备高达60核的配置,内置AMX技术,能够加速中小规模参数的大语言模型推理。两者通过统一的计算架构和优化工具链协同工作,实现了1+1>2的效果。例如,IPEX-LLM为大模型优化,OpenVINO™工具套件优化AI推理,oneAPI统一编程模型简化开发流程。
在英特尔架构一体机上部署DeepSeek的过程相对简单。首先需要配置系统环境,更新GPU驱动版本,并使用英特尔IPEX-LLM版本的llama.cpp框架。通过设置环境变量,可以利用GPU加速运行671B版本的DeepSeek-R1。FlashMoE工具进一步优化了MoE模型的推理性能,使得在单路至强®W处理器加2-4块锐炫™A770显卡的配置下,能够获得接近10 Token/s的性能表现,满足企业级生成式AI应用的需求。
一体机的低成本和高效率使其成为企业部署大模型的理想选择。与传统分散式设备相比,一体机在硬件采购、软件授权和初始配置等方面的资金投入较少,且易于维护和部署。其高度集成化设计优化了硬件兼容性,减少了硬件不匹配的故障。此外,一体机常驻用户办公与业务环境边缘,能够加速操作,减少数据传输距离和时间,提升业务处理速度和响应效率。
随着大模型推理普及化的趋势,一体机的优势愈发明显。英特尔联合Hugging Face、Anyscale等合作伙伴推出的企业AI开放平台(OPEA),旨在解决生成式AI技术的工具碎片化问题,并通过“Powered By OPEA”认证体系确保合作伙伴间生态的互联互通。这一认证体系将成为企业选择生成式AI组件的重要信任基准,推动AI产业生态的完善和标准化进程。
总的来说,基于英特尔解决方案的一体机在成本、性能和部署灵活性方面表现出色,为企业提供了高效且经济的大模型推理解决方案。随着AI技术的不断发展,一体机将在更多应用场景中发挥重要作用,推动AI服务的规模化落地。
原文和模型
【原文链接】 阅读原文 [ 3073字 | 13分钟 ]
【原文作者】 量子位
【摘要模型】 deepseek/deepseek-v3/community
【摘要评分】 ★★★★★