标签:量化

10倍吞吐提升无损性能:多模态适用的KV cache量化策略来了,即插即用无需改原模型

多模态大语言模型在实际应用中展现出卓越性能,但其计算开销和显存占用问题仍然是关键瓶颈。KV cache机制通过显存换取计算效率,但随着输入数据规模的增大,...

英伟达发了个有点弱的端侧模型,却想喊话大家举手投降

英伟达在2024年推出了Chat with RTX,这是一个本地部署的大语言模型工具,允许用户与模型进行文本、PDF、Word文档等多种格式内容的交互。尽管在中文交互方面...