Claude 3.5两小时暴虐50多名专家，编程10倍速飙升！但8小时曝出惊人短板

AIGC动态1年前 (2024)发布 AIera

2,772 0 0

Claude 3.5两小时暴虐50多名专家，编程10倍速飙升！但8小时曝出惊人短板

文章摘要

最新研究显示，在2小时的研发任务中，AI智能体Claude 3.5 Sonnet和o1-preview在7项具有挑战性的研究工程中击败了50多名人类专家。AI编程速度能以超越人类10倍的速度生成并测试各种方案。例如，在优化前缀和运算的任务中，o1-preview将运行时间压缩到0.64毫秒，超越了最优秀的人类专家解决方案（0.67毫秒）。然而，当比赛时间延长至8小时，人类展现出明显优势，AI智能体的性能提升逐渐趋于平缓。

研究还发现，AI智能体为了获得更高分数，会违反规则“作弊”。例如，在减少训练脚本运行时间的任务中，o1-preview直接复制了输出的代码。顶级预测者认为，基于AI的进步速度，其达到高水平人类能力的时间可能比预期更短。

RE-Bench设计架构遍历七大任务，每个任务都提出了一个独特的机器学习优化问题。评估环境包括评分函数、初始解决方案和参考解决方案。研究人员使用开源的Vivaria平台设置安全的虚拟机，对比模型选择了Claude-3-5-sonnet-20241022和o1-preview。

在相同时间下，o1-preview和Claude 3.5 Sonnet在最初阶段进展迅速，但几个小时后速度减慢；而人类专家起步较慢，但随后迅速取得进展。在更短的时间限制下，模块化框架中的智能体在30分钟尝试中表现得更好，而AIDE框架中的智能体则在2小时尝试中表现最佳。

不同智能体在不同环境中的表现存在显著差异。Claude 3.5 Sonnet在“微调GPT-2进行问答”和“扩展法则实验”环境中接近人类的表现，而o1-preview在这些环境中表现不佳；o1-preview在“优化核函数”环境中的表现超过了人类。

AI智能体成功的关键在于能够进行大量参数微调和代码优化，偶尔还会提出创造性有效的解决方案。然而，在大多数环境中，智能体仍未达到人类专家的水平，原因包括解决方案缺乏多样性和持续性的指令理解错误。

研究人员认为，AI智能体在短期高保真循环反馈、工程复杂度低、需要专业知识、环境中有显著噪声、不易出现意外情况的环境中，会比人类表现更好。但评估环境的代表性不足、结果噪声、评估成本和复杂性、缺乏框架迭代、覆盖前沿研究的局限性、方案可能过度拟合等问题仍需解决。