标签:推理框架

小米小爱同学:资源受限下,实现端侧大模型的高性能推理

随着大模型能力的持续提升,端侧设备部署成为产业界的重要工程挑战。手机、车载、IoT等设备对模型体积、推理时延、功耗和更新机制提出了极高要求,使得端侧推...