谷歌版贾维斯即将问世，最强Gemini 2.0加持！AI自主操控电脑时代来临

2,192 0 0

文章摘要

科技巨头们正将人工智能（AI）操控电脑作为下一个战略要地。Anthropic公司展示了其Claude 3.5 AI系统，能够自主操作电脑完成复杂任务。谷歌也在开发名为“Project Jarvis”的类似项目，旨在自动化Chrome浏览器中的网页任务，预计年底发布，由Gemini 2.0驱动。微软推出了OmniParser，一个屏幕解析工具，将截图转化为结构化数据，帮助AI理解用户意图。OpenAI也在研发AI智能体，能够操控计算机完成在线订餐、解决编程难题等任务。苹果预计明年发布跨多个APP的屏幕识别能力。

谷歌的“贾维斯”项目是一个大动作模型（LAM），专门针对Chrome浏览器优化，通过截屏、解析屏幕内容，自动点击按钮或输入文本，帮助完成基于网页的日常任务。微软的OmniParser模型结合了微调后的可交互图标检测模型、图标描述模型以及光学字符识别（OCR）模块，生成用户界面的结构化表示，增强了GPT-4V在对应界面区域预测行动的能力。

研究人员发现，将屏幕解析和动作预测两个目标分解，可以减轻GPT-4V的负担，提高动作预测准确率。OmniParser通过整合功能的局部语义，显著提高了GPT-4V在不同平台上的性能，甚至超过了专门在图形用户界面（GUI）数据集上微调过的模型。在网页导航和移动设备导航基准测试中，OmniParser也表现出色，证明了通过解析屏幕截图提供的语义信息非常有用，尤其是在处理跨网站和跨领域任务时。