刚刚,OpenAI开源BrowseComp,重塑Agent浏览器评测

AI-Agent5天前发布 AIGCOPEN
79 0 0
刚刚,OpenAI开源BrowseComp,重塑Agent浏览器评测

 

文章摘要


【关 键 词】 开源测试智能体搜索模型

OpenAI于今天凌晨2点开源了专门用于智能体浏览器功能的测试基准——BrowseComp。这一测试基准的难度极高,即使是OpenAI自家的GPT-4o和GPT-4.5模型,准确率也仅为0.6%和0.9%,几乎可以忽略不计。即便为GPT-4o启用浏览器功能,其准确率也仅提升至1.9%。然而,OpenAI最新发布的Agent模型Deep Research在这一测试中表现突出,准确率高达51.5%,在自主搜索、信息整合和准确性校准方面展现了卓越的能力

BrowseComp全称为Browsing Competition,包含1266个极具挑战性的问题,涵盖电影、科学与技术、艺术、历史、体育、音乐、电子游戏等多个领域。这些问题的难度在于,智能体需要在庞大的互联网空间中搜索,并将潜在答案与问题中提出的复杂约束条件相匹配。例如,其中一个问题要求智能体找出1990年至1994年间,由巴西裁判执法的两支足球队,且比赛中共出现四张黄牌(每队两张),其中三张不是在上半场发出,并有四次换人,其中一次是在比赛前25分钟因伤换人。这类问题不仅要求智能体具备强大的搜索能力,还需要对信息进行深度分析和整合

BrowseComp的数据集完全由人类专业数据师收集,其指导原则主要遵循SimpleQA。在创建问题时,数据师通过三个主要检查点确保问题的挑战性:首先,验证现有模型无法解决这些问题;其次,进行五次简单的谷歌搜索,确保答案不会出现在搜索结果的第一页;最后,确保这些问题足够困难,以至于另一个数据师在十分钟内无法解决。这种设计方法使得问题虽然难以找到答案,但一旦找到,却很容易验证。然而,这种设计也存在一个缺点,即虽然可以确定提供的参考答案是正确的,但不能确定没有其他答案。

为了衡量BrowseComp数据集的难度,OpenAI邀请了创建问题的同一批人类数据师尝试解答这些问题。结果显示,数据师解决了29.2%的问题,而在解决的问题中,数据师的答案与原始参考答案一致的比例为86.4%。这一结果表明,即使是人类专家,在面对这些复杂问题时也面临巨大挑战

OpenAI还对自己的模型在BrowseComp上进行了综合测试。GPT-4o和GPT-4.5这两个不具备浏览能力的模型在BrowseComp上的表现很差,准确率仅为0.6%和0.9%。当为GPT-4o启用浏览功能后,其准确率从0.6%提升到了1.9%。这一提升虽然不大,但揭示了一个重要事实:单纯的浏览能力并不能完全解决BrowseComp中的复杂问题。模型需要能够有效地利用浏览工具,进行战略性搜索和信息筛选。OpenAI o1模型虽然不具备浏览能力,但其推理能力较强,准确率达到了9.9%。这一结果表明,推理能力在网络浏览任务中也起着关键作用

OpenAI最新发布的Agent模型Deep Research在BrowseComp上的表现意外地好,准确率达到了51.5%。这表明Deep Research能够有效地使用浏览工具,对检索到的信息进行深度分析和综合处理。此外,OpenAI还发现,Deep Research的表现随着测试时计算资源的增加而提升。这表明,增加计算资源可以显著提高模型在复杂网络浏览任务中的表现。通过使用更多的计算资源,模型可以尝试更多的搜索路径,从而提高找到正确答案的概率。

原文和模型


【原文链接】 阅读原文 [ 1561字 | 7分钟 ]
【原文作者】 AIGC开放社区
【摘要模型】 deepseek-v3
【摘要评分】 ★★★☆☆

© 版权声明
“绘蛙”

相关文章

“极客训练营”

暂无评论

暂无评论...