豆包视觉理解模型正式发布：一元处理近 300 张高清图片，低于行业价格 85%

2,100 0 0

文章摘要

在12月18日的火山引擎Force大会上，字节跳动推出了豆包视觉理解模型，该模型在数学、物理、图表、代码等多个领域的推理能力得到加强，同时具有成本效益，输入价格低廉。豆包视觉理解模型能够识别视觉内容并进行复杂逻辑计算，完成分析图表、处理代码、解答学科问题等任务，同时具备视觉描述和创作能力。豆包模型已接入豆包App和PC端产品，注重多模态输入，包括语音、视觉等能力，并通过火山引擎向企业客户开放。

豆包3D生成模型也在会上首次亮相，采用3D-DiT等算法技术生成高质量的3D模型。veOmniverse是火山和英伟达合作的数字孪生平台，与豆包3D模型结合使用，可以高效完成智能训练、数据合成和数字资产制作。用户只需输入文本，即可实时生成3D场景和模型，满足仿真训练的多样化需求。

豆包通用模型pro已全面对齐GPT-4o，使用价格仅为后者的1/8。在专业知识领域，豆包pro相比五月版本提升了54%，综合任务处理能力提升32%，指令遵循提升9%、推理能力提升13%，在数学方面提升43%。豆包音乐模型升级到生成3分钟的完整作品，新的模型能够合理运用旋律、节奏、和声等信息，使全曲保持连贯性。文生图模型升级到2.1版本，实现精准生成汉字和一句话P图的产品化能力，已接入即梦AI和豆包App。

豆包大模型的日均tokens使用量已超过4万亿，较七个月前首次发布时增长了33倍。豆包大模型已经与八成主流汽车品牌合作，并接入到多家手机、PC等智能终端，覆盖终端设备约3亿台。在信息处理场景的调用量增长了39倍，客服与销售场景增长16倍，硬件终端场景增长13倍，AI工具场景增长9倍，学习教育等场景也有大幅增长。

火山引擎升级了火山方舟、扣子和HiAgent三款平台产品，帮助企业构建好自身的AI能力中心，高效开发AI应用。火山引擎认为，下一个十年，计算范式应该从云原生进入到AI云原生的新时代，并推出了新一代计算、网络、存储和安全产品。在计算层面，火山引擎GPU实例通过vRDMA网络，支持大规模并行计算和P/D分离推理架构，显著提升训练和推理效率，降低成本；存储上，新推出的EIC弹性极速缓存能够实现GPU直连，使大模型推理时延降低至1/50、成本降低20%；在安全层面，火山将推出PCC私密云服务，构建大模型的可信应用体系。基于PCC，企业能够实现用户数据在云上推理的端到端加密，而且性能很好，推理时延比明文模式的差异在5%以内。