豆包升级了“眼睛”，看APP截图就能写代码了！超低价让多模态AI普惠

1,864 0 0

文章摘要

豆包最新发布的“豆包·视觉理解模型”展示了其在图像识别和代码生成方面的强大能力。该模型能够识别APP截图，并迅速生成相应的代码，包括菜单栏、播放列表框架等，且在30秒内完成。若需更复杂的功能，模型也能在1分钟内基于原有代码新增控制面板、播放按钮等。模型的亮点包括内容识别能力增强，尤其在理解中国传统文化方面；理解与推理能力增强，特别是在数学、逻辑、代码方面；以及视觉描述的细腻度，能创作多种文体内容。

在与OpenAI的GPT-4o的比拼中，豆包·视觉理解模型在复杂、生僻物体识别和反向猜Prompt环节表现更优，而在“大家来找茬”和数学竞赛大比拼中，两者表现相当或豆包略胜一筹。此外，豆包大模型在“说”和“唱”的能力也得到升级，大语言模型在综合能力、数学能力、专业知识和代码能力上均有显著提升。豆包·音乐模型能生成3分钟完整音乐，并支持用图片来作曲。豆包·文生图模型则能通过简单的指令完成图像编辑和海报生成。

豆包大模型的应用已覆盖科教、金融、医疗等多个行业，并与多家企业合作。其易落地性得益于HiAgent和扣子两大工具，提供行业应用模板、技术支持和生态覆盖，使企业能快速实现AI能力的嵌入和部署。豆包大模型的升级在视觉、语言和音乐三大领域均展现出显著的实力提升，为用户提供了更高效、低成本的AI解决方案。