谷歌、微软加入「AI 操控电脑」战场：谷歌版贾维斯将由Gemini 2.0加持

2,130 0 0

文章摘要

科技巨头们正将AI智能体操控电脑屏幕作为未来发展的重点。Anthropic展示了Claude 3.5能够自主看屏幕操作光标完成复杂任务。谷歌正在开发名为“Project Jarvis”的新项目，旨在自动化Chrome网页任务，预计12月亮相，由未来版Gemini 2.0驱动。微软也推出了OmniParser，一个屏幕解析工具，将截图转化为结构化数据，帮助AI精准理解用户意图。OpenAI内部已有AI智能体雏形，可以操控计算机完成在线订餐、自动查询解决编程难题等任务。苹果预计在明年发布跨多个APP屏幕识别能力，最新迭代的Ferret-UI 2是通用UI模型。

谷歌“贾维斯”项目本质上是一个大动作模型（LAM），专门针对谷歌Chrome浏览器优化，通过截屏、解析屏幕内容，然后自动点击按钮或输入文本，帮助人们完成基于网页的日常任务。微软OmniParser模型可以将用户界面截图解析为结构化元素，显著增强了GPT-4V在对应界面区域预测行动的能力。研究人员发现，将理解当前步骤的用户界面和预测当前屏幕上的下一个动作两个目标分解开，可以减轻GPT-4V的负担，模型也能够从解析后的屏幕中利用更多信息，动作预测准确率更高。

OmniParser结合了微调后的可交互图标检测模型、微调后的图标描述模型以及光学字符识别（OCR）模块的输出，可以生成用户界面的结构化表示，类似于文档对象模型（DOM），以及一个叠加潜在可交互元素边界框的屏幕截图。研究人员构造了一个用于可交互图标检测的微调数据集，包含6.7万个不重复的屏幕截图，其中所有图像都使用从DOM树派生的可交互图标的边界框进行标记。除了可交互区域检测，还引有一个OCR模块来提取文本的边界框。然后合并OCR检测模块和图标检测模块的边界框，同时移除重叠度很高的框（阈值为重叠超过90%）。对于每个边界框，使用一个简单的算法在边框旁边标记一个ID，以最小化数字标签和其他边界框之间的重叠。

研究人员还发现，在很多情况下，如果仅输入叠加了边界框和相关ID的用户界面截图可能会对GPT-4V造成误导，这种局限性可能源于GPT-4V无法“同时”执行“识别图标的语义信息”和“预测特定图标框上的下一个动作”的复合任务。为了解决这个问题，研究人员将功能局部语义整合到提示中，即对于可交互区域检测模型检测到的图标，使用一个微调过的模型为图标生成功能描述；对于文本框，使用检测到的文本及其标签。研究人员使用GPT-4o构造了一个包含7000对“图标-描述”的数据集，并在数据集上微调了一个BLIP-v2模型，结果也证明了该模型在描述常见应用图标时更加可靠。