豆包说要「普惠」,于是大模型处理图片按「厘」计价了
文章摘要
【关 键 词】 视觉理解、AI创新、多模态、成本优势、技术发展
近期,字节跳动在2024冬季火山引擎FORCE原动力大会上推出了豆包大模型家族的新成员——豆包・视觉理解模型,该模型具备强大的视觉理解能力,能够处理复杂视觉问答任务,并在价格上具有显著优势,输入价格仅为3厘钱,大幅降低了企业用户的成本。豆包大模型家族的其他成员也宣布升级,包括豆包通用模型Pro、豆包・音乐生成模型、豆包・文生图模型,以及新发布的豆包・3D模型。
豆包大模型家族的发展迅速,日均tokens使用量超过4万亿,增长了33倍。在智源研究院发布的评测结果中,豆包通用模型Pro在中文能力评测中排名第一,豆包・视觉理解模型在视觉语言模型中排名第二,仅次于GPT-4o,成为得分最高的国产大模型。
豆包・视觉理解模型的“秒懂”能力令人印象深刻,它能够精准提取图像文本信息,完成深度图片理解与推理,适用于复杂的视觉问答任务。此外,豆包大模型的多模态能力突破,为用户带来了更多惊喜,如产品推荐、教育辅助或虚拟助手等场景中的应用。
豆包通用模型Pro在综合能力上提升了32%,与GPT-4o持平,但价格仅为其八分之一。豆包・音乐模型的生成水平从“高光片段”跃升到“完整乐章”,用户可以简单描述或上传图片生成长达3分钟的高质量音乐作品。豆包・文生图模型新增了“一键海报”和“一键P图”能力,提升了模型在文字生成方面的准确率。
火山引擎云服务平台为豆包大模型提供了底层支撑,解决了成本高和落地难的挑战,提供了全栈服务。平台提供了一系列工具,包括一站式大模型服务平台火山方舟、大模型应用开发平台扣子、企业专属AI应用创新平台HiAgent,这些工具在大会上也同步升级。
火山引擎总裁谭待表示,火山引擎希望帮助企业做好AI创新,驶向更美好的未来。展望2025年,豆包大模型团队在技术研发方面的影响力持续增长,预计大模型技术将有更快速的发展,特别是在图像生成、视频生成等多模态任务上。豆包大模型的未来发展值得期待。
原文和模型
【原文链接】 阅读原文 [ 4327字 | 18分钟 ]
【原文作者】 机器之心
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★★