标签:量化推理

最新W4A4KV4全量化框架,单卡A100大模型推理速度飙升

王颖研究员团队联合华北电力大学和上海科技大学,在ASPLOS 2025会议上发布了COMET框架,该框架通过系统-算法协同优化,实现了权重、激活和KV缓存全4比特推理...