百万tokens仅需8毛,不蒸馏造出世界一流大模型,豆包全新1.5Pro不走捷径
文章摘要
【关 键 词】 AI大模型、语音助手、技术创新、性能优化、多模态能力
随着春节的临近,国内AI厂商纷纷发布新一代大模型。豆包公司在春节前推出了实时语音功能,实现了中文语音对话的断崖式领先,为用户提供了智商与情商双高的实时语音助手和聊天伙伴。紧接着,月之暗面与DeepSeek推出了可比肩满血版o1的推理模型。豆包大模型也迎来了1.5Pro版本,包括基础模型Doubao-1.5-pro、新版视觉理解模型Doubao-1.5-vision-pro和全新实时语音模型Doubao-1.5-realtime-voice-pro。轻量级模型Doubao-1.5-lite具有极致响应速度,效果与时延达到全球一流水平。
Doubao-1.5-pro在多项基准上超过了其他SOTA模型,完全基于自主数据生产体系训练,没有通过蒸馏其他模型走捷径。在开发者关注的使用成本方面,豆包大模型坚持”训练-推理”一体设计,以取得模型性能和推理成本之间的最优平衡。此次更新进一步提升了豆包大模型的性价比,32k上下文长度的Doubao-1.5-pro处理1000token仅需0.0008元,处理100万token仅需8毛钱。更注重速度的Doubao-1.5-lite更便宜,推理输入单价为0.0003元/千tokens,推理输出单价为0.0006元/千tokens。
Doubao-1.5-pro的卓越表现源于稀疏MoE架构以及从预训练到后训练和推理阶段的层层创新。MoE结构具有低成本、低算力需求、效率高的优势,可以在保持模型性能的同时,以更少的算力投入获得更高的产出。在预训练阶段,豆包大模型团队确定了性能和效率比较平衡的稀疏比例,让小参数量激活的模型同样能够达到世界一流大模型的性能。Doubao-MoE将性能杠杆拉高到了7倍,远超业界最高不到3倍的水平。
豆包大模型团队还在SFT、Reward Model和RL阶段进行了技术创新与优化,充分发挥出真实数据的最大优势。在推理阶段,Doubao-1.5-pro针对不同计算象限高效结合异构硬件与不同的低精度优化策略,实现低延迟与吞吐量提升并举、总成本降低的同时兼顾TTFT和TPOT的最优化目标。
Doubao-1.5-Pro在全模态能力上进一步升级,实现了视觉多模态和语音模态的飞跃。在视觉多模态方面,通过技术升级,模型在视觉推理、文字文档识别、细粒度信息理解、指令遵循方面的能力显著增强。在语音模态方面,豆包大模型团队提出了新的端到端Speech2Speech框架,实现了语音对话中真正意义上的语音理解生成端到端。
豆包大模型立足用户真实需求,不忘探索技术前沿。如今,用户可以在桌面、移动APP、浏览器插件等平台轻松体验基于豆包大模型的智能工具。豆包大模型的日均token调用量已超4万亿,较5月发布时增长33倍,在国内AI大模型中遥遥领先。豆包大模型团队还在研发”Doubao深度思考模式”,已在AIME基准上超过o1-preview和o1。
原文和模型
【原文链接】 阅读原文 [ 4507字 | 19分钟 ]
【原文作者】 机器之心
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★★