冲上热搜!美团大模型,靠「快」火了

冲上热搜!美团大模型,靠「快」火了

 

文章摘要


【关 键 词】 LongCat模型计算效率架构创新训练方法实用导向

随着 AI 普及,模型厂商开始关注在保证准确性的前提下,如何以最少算力解决问题并快速给出回应,相关开源模型也逐渐增多。美团新开源的 LongCat – Flash – Chat 模型引发关注,它来自美团的 LongCat – Flash 系列,官网可直接使用。

模型特点与优势:该模型天然知晓“not all tokens are equal”,能根据重要性为重要 token 分配动态计算预算,仅激活少量参数就能达到领先开源模型性能。其推理速度极快,在 H800 显卡上超过每秒 100 个 token,成本仅为每百万输出 token 0.7 美元。

架构创新训练方法:LongCat – Flash 是混合专家模型,总参数量 5600 亿,训练数据超 20 万亿 token,训练时间不到 30 天,系统可用率达 98.48%。在实际部署中表现出色,性能与 SOTA 非思考型模型相当,参数更少、推理更快。技术上,它瞄准计算效率与智能体能力,融合架构创新与多阶段训练方法。架构方面,采用新颖 MoE 架构,包括零计算专家和快捷连接 MoE。零计算专家提出动态计算资源分配机制,根据 token 上下文重要性分配计算量,并改进专家偏置机制优化资源配置;快捷连接 MoE 引入跨层快捷连接,克服通信开销限制,提升训练和推理效率。训练方面,提出高效模型扩展策略,包括超参数迁移、模型增长初始化、多层次稳定性套件和确定性计算,还设计了涵盖多阶段的训练 pipeline,使模型具备高级智能体行为。

跑快又便宜的原因:一方面有与模型架构协同设计的并行推理架构,另一方面加入量化和自定义内核等优化方法。专属优化通过 SBO 调度策略缓解通信开销,利用注意力机制和 MTP 结构创新解决 KV 缓存问题;系统级优化解决 launch – bound 问题,提高 GPU 利用率;自定义内核优化针对自回归特性挑战,量化采用细粒度块级量化方案。

实战表现与行业趋势:实测中,LongCat – Flash 生成吞吐量和速度优于 DeepSeek – V3,在 Agent 应用中提升交互性。首个 token 输出速度快,后续生成也远超人眼阅读速度,联网搜索快且能附带引用来源。当前大模型进入实用时代,用户更关注模型使用成本和速度。美团开源的 LongCat – Flash 顺应趋势,体现从性能竞赛向实用导向的转变,为开发者和企业提供了可参考的技术路径。

原文和模型


【原文链接】 阅读原文 [ 5541字 | 23分钟 ]
【原文作者】 机器之心
【摘要模型】 doubao-1-5-pro-32k-250115
【摘要评分】 ★★★★★

© 版权声明
“绘蛙”

相关文章

“极客训练营”

暂无评论

暂无评论...