小米小爱同学:资源受限下,实现端侧大模型的高性能推理

AIGC动态4小时前发布 ai-front
13 0 0
小米小爱同学:资源受限下,实现端侧大模型的高性能推理

 

文章摘要


【关 键 词】 AI技术端侧部署模型优化推理框架硬件适配

随着大模型能力的持续提升,端侧设备部署成为产业界的重要工程挑战。手机、车载、IoT等设备对模型体积、推理时延、功耗和更新机制提出了极高要求,使得端侧推理成为融合系统优化、模型压缩和软硬件协同的复杂问题。小米小爱同学端侧AI负责人杨永杰指出,端侧大模型的商业化落地仍面临资源限制和模型快速迭代两大核心门槛。端侧设备的算力和带宽有限,即使通过低比特量化,可部署的模型参数量也难以超过4B,且效果相比云端存在明显差距。此外,大模型本身处于快速变化阶段,端侧更新机制滞后于云端,导致技术落地节奏放缓。

在技术优化层面,杨永杰团队通过自研推理框架实现了180 tokens/s的实时推理性能,并采用动态输入支持、投机推理优化和量化指令级优化等策略提升效率。动态输入技术通过自动切分输入尺寸,避免了传统静态图填充造成的计算浪费;投机推理在端侧实现了7~10倍的解码加速,显著缓解了推理速度瓶颈。此外,团队通过共享基座架构(基础模型+LoRA插件)支持多业务复用,在内存和存储受限的设备上实现了灵活的任务切换能力。

硬件异构和业务需求对框架设计提出了更高要求。端侧设备(如手机NPU)天然不支持并发推理,团队通过调度机制保障业务链路的时效性,同时采用模块化设计平衡跨芯片平台的兼容性与性能。优化技术的组合应用遵循“复用优先”原则,例如prompt cache等功能被封装为可配置选项,以适应不同业务场景的特性需求。

展望未来,杨永杰认为端侧大模型的突破将依赖硬件能力提升和模型架构演进双轨并行。新一代面向大模型的端侧芯片有望缓解算力瓶颈,而Linear Attention等新架构可能解决Transformer在长上下文场景下的资源占用问题。多模态任务的兴起将进一步凸显端侧对高效架构的需求,例如图像和视频输入导致的token长度激增问题。当前技术积累被视为未来规模化部署的基础,随着硬件和算法的协同进化,端侧大模型或将在成本敏感场景中展现更大潜力。

原文和模型


【原文链接】 阅读原文 [ 4922字 | 20分钟 ]
【原文作者】 AI前线
【摘要模型】 deepseek/deepseek-v3-0324
【摘要评分】 ★★★★☆

© 版权声明
“绘蛙”

相关文章

“极客训练营”

暂无评论

暂无评论...