大镖客里骑马,星露谷里种地,天际线里盖房,还能修图剪视频,Cradle 操控一切软件!
文章摘要
【关 键 词】 通用框架、人工智能、交互控制、模块系统、智能体
Cradle是一种新型的通用计算机控制框架,由昆仑万维与北京智源人工智能研究院、新加坡南洋理工大学、北京大学等机构共同提出。这一框架使人工智能代理(AI Agent)能够像人类一样直接控制键盘和鼠标,无需依赖任何内部API,实现与任意开闭源软件的交互。
Cradle的通用性源于其对计算机交互过程中原始输入输出的封装和抽象,它使用屏幕显示的视频图像作为输入,提取文本和视觉信息进行决策,并输出控制键盘和鼠标的信号。这一框架由六大模块组成:信息收集、自我反思、任务推断、技能管理、行动规划和记忆模块。
Cradle的决策推理模块能够自发地与软件交互并完成任务,通过反思过去、总结现在和规划未来的过程,不断提升对决策过程中的观察和行为的理解。
在游戏和软件应用的测试中,Cradle展现了其通用性,成功完成了《荒野大镖客2》、《星露谷物语》、《城市天际线》和《当铺人生2》等游戏中的特定任务,以及Chrome、Outlook、剪映、美图秀秀和飞书中的日常操作任务。此外,Cradle在benchmark OSWorld上的表现也超越了使用真值标签的基线方法,证明了其模块的合理性和必要性。
Cradle的提出为构建能够完成计算机上一切任务的通用智能体提供了可能,它统一了输入输出接口,促进了统一粒度数据的搜集,为未来智能体在各个环境中交互并自我提升奠定了基础。这一框架的发展标志着向通用人工智能(AGI)的迈进,展现了人工智能在模拟人类与计算机交互方面的巨大潜力。
原文和模型
【原文链接】 阅读原文 [ 2399字 | 10分钟 ]
【原文作者】 AI科技评论
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★☆
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...