豆包说要「普惠」，于是大模型处理图片按「厘」计价了

AI-Agent2年前 (2024)发布 almosthuman2014

3,342 0 0

文章摘要

近期，字节跳动在2024冬季火山引擎FORCE原动力大会上推出了豆包大模型家族的新成员——豆包・视觉理解模型，该模型具备强大的视觉理解能力，能够处理复杂视觉问答任务，并在价格上具有显著优势，输入价格仅为3厘钱，大幅降低了企业用户的成本。豆包大模型家族的其他成员也宣布升级，包括豆包通用模型Pro、豆包・音乐生成模型、豆包・文生图模型，以及新发布的豆包・3D模型。

豆包大模型家族的发展迅速，日均tokens使用量超过4万亿，增长了33倍。在智源研究院发布的评测结果中，豆包通用模型Pro在中文能力评测中排名第一，豆包・视觉理解模型在视觉语言模型中排名第二，仅次于GPT-4o，成为得分最高的国产大模型。

豆包・视觉理解模型的“秒懂”能力令人印象深刻，它能够精准提取图像文本信息，完成深度图片理解与推理，适用于复杂的视觉问答任务。此外，豆包大模型的多模态能力突破，为用户带来了更多惊喜，如产品推荐、教育辅助或虚拟助手等场景中的应用。

豆包通用模型Pro在综合能力上提升了32%，与GPT-4o持平，但价格仅为其八分之一。豆包・音乐模型的生成水平从“高光片段”跃升到“完整乐章”，用户可以简单描述或上传图片生成长达3分钟的高质量音乐作品。豆包・文生图模型新增了“一键海报”和“一键P图”能力，提升了模型在文字生成方面的准确率。

火山引擎云服务平台为豆包大模型提供了底层支撑，解决了成本高和落地难的挑战，提供了全栈服务。平台提供了一系列工具，包括一站式大模型服务平台火山方舟、大模型应用开发平台扣子、企业专属AI应用创新平台HiAgent，这些工具在大会上也同步升级。

火山引擎总裁谭待表示，火山引擎希望帮助企业做好AI创新，驶向更美好的未来。展望2025年，豆包大模型团队在技术研发方面的影响力持续增长，预计大模型技术将有更快速的发展，特别是在图像生成、视频生成等多模态任务上。豆包大模型的未来发展值得期待。