标签:低秩分解

清华&面壁开源高效压缩技术:一块 80 G A100 轻松加载 50 个 7B 模型

清华大学与面壁智能团队提出了一种名为Delta Compression的技术,通过存储主干模型与任务专用模型之间的参数差值,显著降低了模型对显卡的存储需求。在此基础...