大模型应用新战场：揭秘终端侧AI竞争关键｜智在终端

2,560 0 0

文章摘要

2024年，AI技术普惠性成为行业共识，各大企业与学术界均在探索AI应用的落地。在大模型与AIGC应用领域，安卓手机厂商与高通等公司的合作尤为引人注目。高通在CVPR 2024等顶级会议上展示了其技术Demo，如在安卓手机上部署70亿参数的多模态大模型LLaVA，以及音频驱动的3D数字人AI助手，这些均能在断网情况下本地运行。

高通的研究重点在于量化技术，以提高计算性能和内存效率，特别是在手机等终端设备上。量化技术通过使用低位数整型精度，如8位（INT8）或4位（INT4），显著提升推理效率。高通的研究表明，INT4模型在不牺牲准确性和性能的情况下，相比INT8，能实现90%的性能提升和60%的能效提升。此外，高通还提出了LR-QAT算法，通过低秩量化感知训练，使大语言模型在计算和内存使用上更高效。

编译器在AI模型部署到硬件架构中起着关键作用，高通在编译技术方面也有所布局。例如，高通AI引擎Direct框架基于Hexagon NPU的硬件架构进行优化，以提高性能并减少内存溢出。

硬件加速方面，高通AI引擎采用异构计算架构，包括Hexagon NPU、Adreno GPU、Kryo CPU或Oryon CPU。Hexagon NPU在第三代骁龙8移动平台上的性能提升了98%，同时功耗降低了40%。此外，高通还在传感器中枢上增加了下一代微型NPU，AI性能提高了3.5倍，内存增加了30%。

高通的AI研究不仅限于手机，还扩展到XR和自动驾驶领域。例如，提出了提高扩散模型效率的方法Clockwork Diffusion，以及高效多视图视频压缩方法LLSS。在AI视频生成方面，高通正在开发面向终端侧AI的高效视频架构，并对视频到视频的生成式AI技术FAIRY进行优化。

高通的AI软件栈提供了一套全面的工具包，支持各种主流AI框架、操作系统和编程语言，提升了AI软件在智能终端上的兼容性。高通AI Studio集成了所有AI工具，包括模型增效工具包、模型分析器和神经网络架构搜索（NAS）等，使得开发者能够一次开发，跨不同设备部署AI模型。

高通的AI研究和优化不仅推动了其技术布局，也影响了整个行业的AI发展。高通在《让AI触手可及》白皮书中强调了其超过15年的AI研发经验，致力于让AI的核心能力在终端上无处不在。这种“发明家文化”促进了新技术的普及化，推动了市场的竞争和繁荣，带动了行业创新和发展。