大模型应用新战场:揭秘终端侧AI竞争关键|智在终端

AIGC动态4个月前发布 QbitAI
965 0 0
大模型应用新战场:揭秘终端侧AI竞争关键|智在终端

 

文章摘要


【关 键 词】 AI普惠高通技术量化技术异构计算AI软件栈

2024年,AI技术普惠性成为行业共识,各大企业与学术界均在探索AI应用的落地。在大模型与AIGC应用领域,安卓手机厂商与高通等公司的合作尤为引人注目。高通在CVPR 2024等顶级会议上展示了其技术Demo,如在安卓手机上部署70亿参数的多模态大模型LLaVA,以及音频驱动的3D数字人AI助手,这些均能在断网情况下本地运行。

高通的研究重点在于量化技术,以提高计算性能和内存效率,特别是在手机等终端设备上。量化技术通过使用低位数整型精度,如8位(INT8)或4位(INT4),显著提升推理效率。高通的研究表明,INT4模型在不牺牲准确性和性能的情况下,相比INT8,能实现90%的性能提升和60%的能效提升。此外,高通还提出了LR-QAT算法,通过低秩量化感知训练,使大语言模型在计算和内存使用上更高效。

编译器在AI模型部署到硬件架构中起着关键作用,高通在编译技术方面也有所布局。例如,高通AI引擎Direct框架基于Hexagon NPU的硬件架构进行优化,以提高性能并减少内存溢出。

硬件加速方面,高通AI引擎采用异构计算架构,包括Hexagon NPU、Adreno GPU、Kryo CPU或Oryon CPU。Hexagon NPU在第三代骁龙8移动平台上的性能提升了98%,同时功耗降低了40%。此外,高通还在传感器中枢上增加了下一代微型NPU,AI性能提高了3.5倍,内存增加了30%。

高通的AI研究不仅限于手机,还扩展到XR和自动驾驶领域。例如,提出了提高扩散模型效率的方法Clockwork Diffusion,以及高效多视图视频压缩方法LLSS。在AI视频生成方面,高通正在开发面向终端侧AI的高效视频架构,并对视频到视频的生成式AI技术FAIRY进行优化。

高通的AI软件栈提供了一套全面的工具包,支持各种主流AI框架、操作系统和编程语言,提升了AI软件在智能终端上的兼容性。高通AI Studio集成了所有AI工具,包括模型增效工具包、模型分析器和神经网络架构搜索(NAS)等,使得开发者能够一次开发,跨不同设备部署AI模型。

高通的AI研究和优化不仅推动了其技术布局,也影响了整个行业的AI发展。高通在《让AI触手可及》白皮书中强调了其超过15年的AI研发经验,致力于让AI的核心能力在终端上无处不在。这种“发明家文化”促进了新技术的普及化,推动了市场的竞争和繁荣,带动了行业创新和发展。

“极客训练营”

原文和模型


【原文链接】 阅读原文 [ 2672字 | 11分钟 ]
【原文作者】 量子位
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★★

© 版权声明
“绘蛙”

相关文章

暂无评论

暂无评论...