标签:VeriGUI

o3 Gemini 都翻车?首个可验证长链 GUI 数据集 VeriGUI 重磅开源,探索通用 Agent 能力边界

GUI 智能体发展迅速,但现有数据集在评估和训练智能体长时程规划与执行能力方面存在瓶颈,在此背景下,2077AI 开源基金会牵头构建的全新基准 VeriGUI 应运而...