标签：量化

微软再放LLM量化大招！原生4bit量化，成本暴减，性能几乎0损失

微软亚研院的研究团队近期发布了原生1bit精度的大模型BitNet b1.58 2B4T的升级版本——BitNet v2。这一新版本在性能几乎无损失的情况下，显著降低了内存占用和...

AIGC动态

3个月前

华为中科大联创大模型低比特量化算法，1‰数据实现昇腾无损压缩7倍

大模型在人工智能领域展现出强大的能力，但其庞大的参数量和部署成本成为广泛应用的主要障碍。以DeepSeek-R1 671B为例，其推理过程需要高达1342GB的显存，即...

AIGC动态

4个月前

10倍吞吐提升无损性能：多模态适用的KV cache量化策略来了，即插即用无需改原模型

多模态大语言模型在实际应用中展现出卓越性能，但其计算开销和显存占用问题仍然是关键瓶颈。KV cache机制通过显存换取计算效率，但随着输入数据规模的增大，...

AIGC动态

5个月前

英伟达发了个有点弱的端侧模型，却想喊话大家举手投降

英伟达在2024年推出了Chat with RTX，这是一个本地部署的大语言模型工具，允许用户与模型进行文本、PDF、Word文档等多种格式内容的交互。尽管在中文交互方面...

AIGC动态

2年前 (2024)