百万tokens仅需8毛，不蒸馏造出世界一流大模型，豆包全新1.5Pro不走捷径

AIGC动态6个月前发布 almosthuman2014

1,511 0 0

百万tokens仅需8毛，不蒸馏造出世界一流大模型，豆包全新1.5Pro不走捷径

文章摘要

随着春节的临近，国内AI厂商纷纷发布新一代大模型。豆包公司在春节前推出了实时语音功能，实现了中文语音对话的断崖式领先，为用户提供了智商与情商双高的实时语音助手和聊天伙伴。紧接着，月之暗面与DeepSeek推出了可比肩满血版o1的推理模型。豆包大模型也迎来了1.5Pro版本，包括基础模型Doubao-1.5-pro、新版视觉理解模型Doubao-1.5-vision-pro和全新实时语音模型Doubao-1.5-realtime-voice-pro。轻量级模型Doubao-1.5-lite具有极致响应速度，效果与时延达到全球一流水平。

Doubao-1.5-pro在多项基准上超过了其他SOTA模型，完全基于自主数据生产体系训练，没有通过蒸馏其他模型走捷径。在开发者关注的使用成本方面，豆包大模型坚持”训练-推理”一体设计，以取得模型性能和推理成本之间的最优平衡。此次更新进一步提升了豆包大模型的性价比，32k上下文长度的Doubao-1.5-pro处理1000token仅需0.0008元，处理100万token仅需8毛钱。更注重速度的Doubao-1.5-lite更便宜，推理输入单价为0.0003元/千tokens，推理输出单价为0.0006元/千tokens。

Doubao-1.5-pro的卓越表现源于稀疏MoE架构以及从预训练到后训练和推理阶段的层层创新。MoE结构具有低成本、低算力需求、效率高的优势，可以在保持模型性能的同时，以更少的算力投入获得更高的产出。在预训练阶段，豆包大模型团队确定了性能和效率比较平衡的稀疏比例，让小参数量激活的模型同样能够达到世界一流大模型的性能。Doubao-MoE将性能杠杆拉高到了7倍，远超业界最高不到3倍的水平。

豆包大模型团队还在SFT、Reward Model和RL阶段进行了技术创新与优化，充分发挥出真实数据的最大优势。在推理阶段，Doubao-1.5-pro针对不同计算象限高效结合异构硬件与不同的低精度优化策略，实现低延迟与吞吐量提升并举、总成本降低的同时兼顾TTFT和TPOT的最优化目标。

Doubao-1.5-Pro在全模态能力上进一步升级，实现了视觉多模态和语音模态的飞跃。在视觉多模态方面，通过技术升级，模型在视觉推理、文字文档识别、细粒度信息理解、指令遵循方面的能力显著增强。在语音模态方面，豆包大模型团队提出了新的端到端Speech2Speech框架，实现了语音对话中真正意义上的语音理解生成端到端。

豆包大模型立足用户真实需求，不忘探索技术前沿。如今，用户可以在桌面、移动APP、浏览器插件等平台轻松体验基于豆包大模型的智能工具。豆包大模型的日均token调用量已超4万亿，较5月发布时增长33倍，在国内AI大模型中遥遥领先。豆包大模型团队还在研发”Doubao深度思考模式”，已在AIME基准上超过o1-preview和o1。