谷歌版贾维斯即将问世,最强Gemini 2.0加持!AI自主操控电脑时代来临

AIGC动态2个月前发布 AIera
511 0 0
谷歌版贾维斯即将问世,最强Gemini 2.0加持!AI自主操控电脑时代来临

 

文章摘要


【关 键 词】 人工智能AI系统自动化屏幕解析跨平台

科技巨头们正将人工智能(AI)操控电脑作为下一个战略要地。Anthropic公司展示了其Claude 3.5 AI系统,能够自主操作电脑完成复杂任务。谷歌也在开发名为“Project Jarvis”的类似项目,旨在自动化Chrome浏览器中的网页任务,预计年底发布,由Gemini 2.0驱动。微软推出了OmniParser,一个屏幕解析工具,将截图转化为结构化数据,帮助AI理解用户意图。OpenAI也在研发AI智能体,能够操控计算机完成在线订餐、解决编程难题等任务。苹果预计明年发布跨多个APP的屏幕识别能力。

谷歌的“贾维斯”项目是一个大动作模型(LAM),专门针对Chrome浏览器优化,通过截屏、解析屏幕内容,自动点击按钮或输入文本,帮助完成基于网页的日常任务。微软的OmniParser模型结合了微调后的可交互图标检测模型、图标描述模型以及光学字符识别(OCR)模块,生成用户界面的结构化表示,增强了GPT-4V在对应界面区域预测行动的能力。

研究人员发现,将屏幕解析和动作预测两个目标分解,可以减轻GPT-4V的负担,提高动作预测准确率。OmniParser通过整合功能的局部语义,显著提高了GPT-4V在不同平台上的性能,甚至超过了专门在图形用户界面(GUI)数据集上微调过的模型。在网页导航和移动设备导航基准测试中,OmniParser也表现出色,证明了通过解析屏幕截图提供的语义信息非常有用,尤其是在处理跨网站和跨领域任务时。

“极客训练营”

原文和模型


【原文链接】 阅读原文 [ 2621字 | 11分钟 ]
【原文作者】 新智元
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★☆☆☆

© 版权声明
“绘蛙”

相关文章

暂无评论

暂无评论...