控制电脑手机的智能体人人都能造，微软开源OmniParser

AIGC动态11个月前发布 almosthuman2014

2,306 0 0

文章摘要

近期，大模型控制计算机的研究和应用领域呈现出蓬勃的发展态势。Anthropic公司推出了能够控制计算机的新版Claude 3.5 Sonnet，荣耀MagicOS 9.0推出了全局智能体，智谱发布了具备全栈式工具使用能力的AutoGLM，华为也公布了能让AI像人类一样操作手机的LiMAC研究成果。此外，苹果发布了Ferret-UI的两个实现版本，微软开源了基于大模型的屏幕解析工具OmniParser，这些工具能够将UI截图转换成结构化的元素，大幅提升了AI对UI的解析和理解能力。

OmniParser的效果显著，能够完成复杂的用户任务，如将特定餐厅保存到行程中等。它通过解析Tripadvisor网页屏幕上的所有元素，找到所需选项，输入关键词，勾选素食选项，最后点击收藏到行程中，顺利完成任务。OmniParser的解析能力出色，过程流畅。

为了应对不同操作系统和应用的交互界面，屏幕解析模型需要可靠地识别可交互图标，理解屏幕截图中元素的含义，并将计划动作与屏幕上相应区域准确关联。OmniParser正是为此而生，它基于用户任务和UI截图输出解析后的截图和局部语义。

OmniParser的开发始于创建两个数据集：可交互区域检测数据集和图标描述数据集。它使用了两个互补的模型：检测模型和描述模型，分别在相应数据集上进行微调和训练。实验结果表明，OmniParser能大幅提升GPT-4V在多个基准上的性能。

OmniParser可作为视觉-语言模型的插件，与Phi-3.5-V和Llama-3.2-V等模型组合使用。团队希望OmniParser能作为一种通用且易于使用的工具，在PC和移动平台上解析用户屏幕，而无需依赖HTML和Android中的视图图层等额外信息。将OmniParser与新版Claude 3.5 Sonnet的Computer Use结合起来，可能会产生令人期待的效果。