腾讯推出快思考模型:API 成本只有 deepseek 不到一半

AIGC动态1天前发布 geekpark
96 0 0
腾讯推出快思考模型:API 成本只有 deepseek 不到一半

 

文章摘要


【关 键 词】 大模型性能优化成本控制架构创新思维链

腾讯混元团队近期推出自研快思考模型Turbo S,该模型通过架构创新实现首字时延降低44%,部署成本较前代模型下降数倍,定价仅为0.8元/百万tokens输入费用。该模型基于Hybrid-Mamba-Transformer融合架构,在保持生成速度的同时,将训练推理成本压缩至GPT-4.5的1/500,并在知识、数学、推理等领域的公开Benchmark中取得对标DeepSeek V3等主流模型的性能表现。

技术突破主要体现在模型架构层面,创新性地将Mamba状态空间模型与Transformer结合。Mamba模块负责处理长文本场景下的序列建模,通过线性复杂度降低内存占用;Transformer模块则保留复杂推理能力,确保数学运算、代码生成等任务精度。这种混合架构使Turbo S在处理法律文本、研究论文等长文档时,KV-Cache内存占用仅为传统架构的1/3,同时支持最高32k tokens的上下文窗口。

算法层面采用长短思维链融合技术,通过自研混元T1慢思考模型合成的长思维链数据,使快思考模型在保持”秒回”特性的前提下,理科推理准确率提升27%。具体实现中,团队建立包含200万条长短思维链配对的数据集,采用规则筛选和模型过滤机制,确保数据质量。这种技术路径使得Turbo S在处理需要多步推理的问题时,错误率较前代模型降低35%。

在工程实现方面,模型首次将Mamba应用于超大规模MoE(专家混合)架构。通过动态激活专家网络,模型在推理时仅需调用15%参数量,却能达到全参数模型92%的准确率。这种设计使得API服务成本较DeepSeek降低50%-75%,支持单卡并行处理120路请求的并发能力。实测数据显示,该模型在生成2000字长文本时,token生成速度稳定在78ms/字,无明显降速现象。

团队在直播中透露,当前中文大模型的scaling law探索尚未终结。数据获取方面,专业标注团队构建的医疗、文学创作等领域数据集,可使模型专项能力提升40%以上。未来计划通过合成数据技术,将训练数据规模扩展至现有量的3倍。与此同时,Turbo S将作为基础架构支撑代码生成、长文本处理等衍生模型,其迭代版本预计在2024年Q2支持百万级上下文窗口。

原文和模型


【原文链接】 阅读原文 [ 2079字 | 9分钟 ]
【原文作者】 极客公园
【摘要模型】 deepseek-r1
【摘要评分】 ★★★★★

© 版权声明
“绘蛙”

相关文章

“极客训练营”

暂无评论

暂无评论...