
文章摘要
微软最近对其开源的AgentUFO进行了重大升级,发布了UFO²版本,并新增了操作系统功能。这一版本的最大亮点在于与Windows系统的深度集成,能够直接调用原生API和COM接口,显著提升了复杂自动化任务的执行效率和精准度。与传统的RPA相比,UFO²通过调用原生API一步即可完成Excel中表格数据转换为图表的操作,无需模拟鼠标点击或视觉定位。测试数据显示,UFO²在自动化任务成功率上远超OpenAI的Operator,特别是在WAA和OSWorld-W测试中,UFO²的成功率分别达到30.5%和32.7%,而Operator仅为20.8%和14.3%。此外,UFO²在执行复杂任务时表现出更高的效率,平均完成步骤仅为5.5步,远低于Operator。
UFO²的核心控制面是HostAgent,它负责解析用户指令、分解任务、管理应用程序生命周期以及协调AppAgents的执行。HostAgent通过WindowsUIAutomation APIs查询系统进程元数据,确保目标应用程序的运行状态,并通过有限状态机控制任务执行的各个阶段,包括主执行循环、子任务分配、等待用户输入、任务完成及错误处理。这种明确的状态划分使得HostAgent能够在动态工作流中稳健地进行任务协调,同时保证任务完成的高级别保证。HostAgent还通过全局黑板接口与AppAgents交换中间结果、依赖状态和执行元数据,支持跨应用的复杂工作流协调,并为系统的调试和回放提供了透明性。
AppAgent是UFO²的核心执行组件,专注于特定的Windows应用程序,具备丰富的应用特定API、混合GUI-API动作接口以及对应用程序能力的深入理解。AppAgent的感知层融合了多种感知信号,包括视觉输入、语义元数据和符号注释,这些信号被转换为结构化的观察对象,帮助AppAgent更全面地理解应用程序状态,从而生成更准确的动作指令。AppAgent的执行逻辑同样基于有限状态机,确保任务执行的鲁棒性和安全性。此外,UFO²引入了混合控制检测机制,将UIA基础的元数据与基于视觉的感知相结合,覆盖标准和非标准的GUI环境,为下游的动作规划和执行提供了坚实的基础。
UFO²的另一个创新之处在于其统一的GUI-API动作编排器——Puppeteer。Puppeteer能够动态选择在每个动作步骤中使用GUI级别自动化还是应用程序特定的API调用,优先选择语义等价的API调用,并在API调用失败时无缝回退到基于GUI的控制。这种混合执行模型不仅提高了任务的鲁棒性,还显著降低了延迟,并减少了基于GUI的工作流的脆弱性。Puppeteer还支持轻量级的API注册机制,允许开发人员通过简单的Python装饰器接口暴露目标应用程序中的高级操作,使得AppAgent能够通过直接调用API来执行复杂任务,而无需通过繁琐的GUI操作。
UFO²引入了画中画功能,主要通过Windows系统自带的远程桌面来实现自动化任务与用户主桌面的隔离。画中画创建了一个轻量级的虚拟桌面窗口,完全独立于用户的主桌面,拥有自己的输入队列和设备上下文,确保自动化任务不会干扰用户的正常工作。为了实现画中画窗口与主桌面之间的逻辑连接,UFO²建立了一个安全的IPC通道,使用Windows自带的Named Pipes技术,并通过每会话的凭据进行身份验证和加密。这种双向通信机制确保了用户可以通过主桌面的轻量级前端面板实时监控和部分控制自动化任务的执行过程,而无需直接访问画中画窗口。
原文和模型
【原文链接】 阅读原文 [ 1997字 | 8分钟 ]
【原文作者】 AIGC开放社区
【摘要模型】 deepseek-v3
【摘要评分】 ★★★★☆