刚刚,OpenAI发布AI Agent—Operator,全民智能体时代来了!

AI-Agent4小时前发布 AIGCOPEN
66 0 0
刚刚,OpenAI发布AI Agent—Operator,全民智能体时代来了!

 

文章摘要


【关 键 词】 AI智能体浏览器操作视觉识别自动化任务用户交互

OpenAI最新发布了AI Agent——Operator,这是一个面向浏览器的智能体,能够模拟人类操作计算机的能力,完成在线订餐、预订酒店、购买机票等日常繁琐、重复任务。Operator的最大技术特点是无需依赖API或特定网站就能完成所有自动化操作,它是通过对屏幕截图的分析,识别页面元素,然后使用鼠标和键盘进行模拟。Operator是基于新模型CUA开发而成,专门对视觉UI界面的理解和交互进行了额外专项训练,这也是Operator无需依赖API的主要原因之一。

Operator内置了一个浏览器,能查看网页并通过打字、点击和滚动来与网页进行交互。它可以处理各种重复性的浏览器任务,包括填写表格、订购杂货,甚至制作表情包等。当用户上传一张包含购物清单的照片时,Operator会通过视觉算法识别出照片中的文字内容,然后利用大模型分析每个项目的意义,最终确定访问哪个电商平台以及搜索哪些关键词。

Operator还具有自我纠错能力,当预见错误或识别不明确时,可以根据大模型的推理能力进行实时修正。实在解决不了,会主动把控制权交给人类寻求帮助。Operator的使用方法很简单,无需专业的编程背景或者繁琐的开发流程,就像使用ChatGPT那样用文本描述你的需求即可。

Operator还可以处理更复杂的任务,包括安排活动、购买演唱会门票、预订旅行计划等。例如,你可以让它帮你查找并购买本周末勇士队比赛的门票,或者安排下周的网球课程。只需简单地描述你的需求,Operator会通过互联网为你找到最佳选项,并完成预订或购买操作。

Operator支持一套完善、安全的用户交互方案。每当涉及金钱交易、个人信息填写等敏感环节时,系统都会暂停当前操作并向用户发送通知,等待进一步指示。如果遇到无法解决的问题,Operator也会主动向人类寻求帮助,不会盲目的尝试解决。此外,Operator还内置了保护措施,会实时监控其自动化行为,当发现发现异常时会暂停任务。目前,Operator处于预览版状态,仅提供给美国Pro用户使用,很快会扩大应用范围。

“极客训练营”

原文和模型


【原文链接】 阅读原文 [ 1030字 | 5分钟 ]
【原文作者】 AIGC开放社区
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★☆☆☆

© 版权声明
“绘蛙”

相关文章

暂无评论

暂无评论...