控制电脑手机的智能体人人都能造,微软开源OmniParser
文章摘要
【关 键 词】 AI控制、智能解析、大模型、UI理解、视觉语言
近期,大模型控制计算机的研究和应用领域呈现出蓬勃的发展态势。Anthropic公司推出了能够控制计算机的新版Claude 3.5 Sonnet,荣耀MagicOS 9.0推出了全局智能体,智谱发布了具备全栈式工具使用能力的AutoGLM,华为也公布了能让AI像人类一样操作手机的LiMAC研究成果。此外,苹果发布了Ferret-UI的两个实现版本,微软开源了基于大模型的屏幕解析工具OmniParser,这些工具能够将UI截图转换成结构化的元素,大幅提升了AI对UI的解析和理解能力。
OmniParser的效果显著,能够完成复杂的用户任务,如将特定餐厅保存到行程中等。它通过解析Tripadvisor网页屏幕上的所有元素,找到所需选项,输入关键词,勾选素食选项,最后点击收藏到行程中,顺利完成任务。OmniParser的解析能力出色,过程流畅。
为了应对不同操作系统和应用的交互界面,屏幕解析模型需要可靠地识别可交互图标,理解屏幕截图中元素的含义,并将计划动作与屏幕上相应区域准确关联。OmniParser正是为此而生,它基于用户任务和UI截图输出解析后的截图和局部语义。
OmniParser的开发始于创建两个数据集:可交互区域检测数据集和图标描述数据集。它使用了两个互补的模型:检测模型和描述模型,分别在相应数据集上进行微调和训练。实验结果表明,OmniParser能大幅提升GPT-4V在多个基准上的性能。
OmniParser可作为视觉-语言模型的插件,与Phi-3.5-V和Llama-3.2-V等模型组合使用。团队希望OmniParser能作为一种通用且易于使用的工具,在PC和移动平台上解析用户屏幕,而无需依赖HTML和Android中的视图图层等额外信息。将OmniParser与新版Claude 3.5 Sonnet的Computer Use结合起来,可能会产生令人期待的效果。
原文和模型
【原文链接】 阅读原文 [ 1479字 | 6分钟 ]
【原文作者】 机器之心
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★☆☆