标签:推理速度

清华&面壁开源高效压缩技术:一块 80 G A100 轻松加载 50 个 7B 模型

清华大学与面壁智能团队提出了一种名为Delta Compression的技术,通过存储主干模型与任务专用模型之间的参数差值,显著降低了模型对显卡的存储需求。在此基础...

阿里发布Qwen2.5-Turbo,上下文长度突破100万

阿里巴巴通义大模型团队近日发布了Qwen2.5-Turbo,这是其最新语言模型Qwen2.5的升级版。新模型在多个方面进行了显著提升,尤其是在处理超长上下文的能力上,...

零一万物发布最新旗舰模型,百万 token 仅 0.99 元!李开复:定价没有亏本

10月16日,零一万物公司发布了其最新旗舰模型Yi-Lightning,这是继上半年推出的千亿参数模型Yi-Large之后的又一次技术突破。Yi-Lightning在保持模型性能提升...

英伟达股价暴跌!或与 Llama 3 发布有关?

本文介绍了Meta发布的Llama 3大模型以及Groq平台上Llama 3的运行速度超快的情况。Llama 3经过预训练和指令微调,参数分别为8B和70B,支持广泛的用例,并在行...

社区供稿 | 多轮对话推理速度提升 46%,开源方案打破 LLM 多轮对话的长度限制

第二段:讲述了StreamingLLM的优势和挑战,以及其通过观察注意力模块中Softmax的输出,解决了注意力 sink 的现象,提高了生成效果。第三段:介绍了Colossal-A...