o3 Gemini 都翻车?首个可验证长链 GUI 数据集 VeriGUI 重磅开源,探索通用 Agent 能力边界

文章摘要
【关 键 词】 GUI智能体、VeriGUI、数据集瓶颈、技术亮点、科研价值
GUI 智能体发展迅速,但现有数据集在评估和训练智能体长时程规划与执行能力方面存在瓶颈,在此背景下,2077AI 开源基金会牵头构建的全新基准 VeriGUI 应运而生,且论文发布后迅速在 Hugging Face 荣登月榜第三。
当前 GUI 智能体研究的痛点在于现有数据集无法满足前沿模型评估需求。一方面,现有数据集任务平均长度不足 10 步,难以模拟真实世界的复杂工作流;另一方面,大多基准仅验证最终结果,无法得知任务失败的具体环节,难以针对性改进智能体规划能力。
VeriGUI 有三大技术亮点精准解决上述难题。一是具有 4 – 8 子任务×百级操作的长链轨迹,任何子任务都能作为独立起点,可全面评估智能体在不同阶段的能力。二是提供子任务级验证信号,只验证子任务目标是否达成,鼓励智能体探索多样化策略。三是定义了跨 Web & Desktop 的统一操作空间,使智能体学习跨环境的通用交互能力。
基于已收集的 130 个 Web 任务轨迹,VeriGUI 展现出卓越复杂性,任务总数 130,子任务总数 587,平均每任务步数 214.4。对多种 SOTA 基础模型的测试结果令人震惊,所有测试组合中,没有任何一个模型的平均任务成功率超过 10%,揭示了现有模型在长时程规划等方面的瓶颈,印证了 VeriGUI 作为高难度基准的价值。
VeriGUI 的发布具有重要科研价值,它填补了评估智能体在长时程、开放式 GUI 工作流中表现的评测空白,其细粒度验证机制为智能体关键能力研究提供精细化监督信号。目前 VeriGUI 已完全开源,可通过 GitHub 代码仓和 Hugging Face 数据集轻松获取。
VeriGUI 项目仍在进行中,未来将扩充数据集,包含更多强调交互性的 Web 任务和复杂桌面软件操作任务。2077AI 开源基金会诚邀各界同仁合作,共同建设 VeriGUI 生态,探索通用智能体的未来。
原文和模型
【原文链接】 阅读原文 [ 1831字 | 8分钟 ]
【原文作者】 AI科技评论
【摘要模型】 doubao-1-5-pro-32k-250115
【摘要评分】 ★★★★☆