字节按下 AI Agent 加速键

1,115 0 0

文章摘要

2025年初，随着DeepSeek、Manus等AI产品的崛起，大厂们正在重新调整战略，以应对AI技术的快速演进。过去两个月里，AI领域出现了多个现象级产品，如DeepSeek-R1的推理能力、GPT-4o的吉卜力画风、OpenAI o3的看图推导地理位置等。这些产品表明，强化学习已经能够泛化，多模态模型也变得更加实用，标志着AI Agent应用进入加速落地阶段。Manus团队透露，Claude 3.5 Sonnet在长程规划和逐步解决问题上的能力已经达到了Agent所需的标准，这为更多复杂任务处理Agent的出现奠定了基础。

在此背景下，字节跳动旗下的火山引擎于4月17日发布了豆包1.5・深度思考模型，这是豆包App背后的推理模型首次亮相。该模型具备多模态能力，能够像人类一样进行思考、规划和反思，支持视觉和听觉等多种感知方式，从而更好地处理复杂任务。火山引擎总裁谭待强调，深度思考模型是构建Agent的基础，并推出了OS Agent解决方案及AI云原生推理套件，帮助企业更快、更省地构建和部署Agent应用。谭待认为，开发Agent需要云上的AI云原生组件，火山引擎通过持续探索和快速行动，致力于成为AI时代基础设施的最优解。

豆包1.5・深度思考模型展示了强大的综合推理能力，能够在购物、点菜等场景中像人类一样进行联网搜索、视觉推理和多模态思考。例如，在购物场景中，豆包能够根据预算和需求推荐露营装备，并通过多轮搜索获取必要信息，最终给出推理答案。在点菜场景中，豆包能够根据图片进行汇率换算、考虑家庭成员喜好和过敏情况，直接生成菜单方案。该模型在专业领域的推理任务中表现优异，如数学推理、编程竞赛和科学推理测试，同时在创意写作和人文知识问答等通用任务上也展示了优秀的泛化能力。此外，豆包模型采用了MoE架构，以较小参数实现媲美顶尖模型的效果，延迟低至20毫秒。

除了推理模型，豆包大模型家族还推出了文生图模型3.0和视觉理解模型的升级版本。文生图模型3.0在文字排版、图像生成和2K高清图片生成方面表现优异，解决了小字和长文本生成的难题。视觉理解模型在视觉定位和视频理解能力上大幅提升，支持多目标、小目标、通用目标的框定位和点定位，并增强了记忆能力、总结理解能力和长视频理解能力。这些能力的提升为线下门店巡检、GUI agent、机器人训练、自动驾驶训练等场景提供了更多可能性。

随着AI进入Agentic AI时代，火山引擎为企业定义通用Agent搭建了一系列基础设施，包括OS Agent解决方案和AI云原生ServingKit推理套件。OS Agent解决方案支持大模型操作数字和物理世界，如浏览器操作、商品比价、视频编辑等任务。豆包UI-TARS模型将屏幕视觉理解、逻辑推理、界面元素定位和操作整合在一起，突破了传统自动化工具的局限性。在垂直类Agent领域，火山引擎推出了智能编程助手Trae和数据产品Data Agent，通过构建数据飞轮，将数据处理能力发挥到极致。

面对大规模推理需求，火山引擎的AI云原生ServingKit推理套件让模型部署更快、推理成本更低，GPU消耗相比传统方案降低80%。谭待表示，火山引擎将在优化模型、降低成本和产品落地三个方面持续发力，保持技术和产品的领先地位。IDC发布的《中国公有云大模型服务市场格局分析，1Q25》显示，火山引擎以46.4%的市场份额位居第一。截至2025年3月底，豆包大模型的日均tokens调用量已超过12.7万亿，相比刚发布时实现了超过106倍的增长。未来，随着深度思考模型、视觉推理的进一步成熟和AI云基础设施的优化，Agent将带动更大的tokens调用量。