全球首测!OpenAI开源SWELancer,大模型冲击100万年薪

AIGC动态2天前发布 AIGCOPEN
135 0 0
全球首测!OpenAI开源SWELancer,大模型冲击100万年薪

 

文章摘要


【关 键 词】 大模型代码评估端到端测试真实任务开源基准

OpenAI近日开源了名为SWE-Lancer的新型大模型代码能力评估基准,该测试基准通过真实软件开发任务和端到端测试方法,为评估大语言模型的工程实践能力提供了新标准。测试数据集包含1488个来自Upwork平台Expensify开源仓库的真实开发任务,总价值达100万美元,直接映射现实开发场景中的经济价值与技术挑战。

相较于传统测试基准SWE-Bench的局限性,SWE-Lancer的核心创新在于采用端到端测试方法。该方法通过模拟用户完整操作流程,验证应用程序的整体行为而非单一功能。例如在修复用户头像显示不一致的案例中,测试不仅检查头像上传功能,还模拟用户登录、切换账户、跨页面验证等全流程操作。这种设计有效避免了模型通过”应试技巧”通过测试的可能性,更贴近真实开发场景中多组件协同工作的复杂性。

为实现真实场景还原,SWE-Lancer引入了用户工具模块。该工具允许模型在本地运行应用程序,通过模拟用户点击、输入、提交等交互行为验证解决方案的有效性。在Expensify报销流程测试案例中,模型需模拟用户完整操作费用录入、数据提交及审批流程启动,验证其解决方案是否真正修复了数据丢失或流程卡顿等问题。这种测试机制将代码修改与实际用户体验直接关联,突破了传统单元测试的局限性。

数据集由独立开发任务(764个)和软件工程管理任务(724个)构成,总价值分别为41.5万和58.5万美元。独立开发任务要求模型完成具体功能实现或漏洞修复,而管理任务则需从多个解决方案中决策最优选项。例如在iOS图像粘贴功能开发任务中,模型需评估不同提案的技术可行性与实施成本。这种任务划分模拟了软件工程师从执行到管理的完整职业发展路径。

在首批测试中,主流大模型表现均未达预期。Claude 3.5 Sonnet在独立开发任务中通过率仅为26.2%,软件管理任务中提升至44.9%;GPT-4o在开发任务中通过率低至8%,其改进版o1在管理任务中达到46.3%。测试结果呈现显著的任务难度相关性:价值超过1000美元的Diamond级任务通过率普遍低于30%,表明当前模型处理高复杂度、高价值任务的能力仍远逊于人类工程师

该基准的推出引发开发者社区广泛讨论,多数观点认可其将测试场景与经济价值挂钩的创新性。行业观察指出,SWE-Lancer不仅为模型能力评估提供了新维度,更揭示了AI在真实软件开发场景中的实际应用边界。随着测试基准持续演进,或将推动大模型在代码生成、系统设计等领域的实用化进程。

原文和模型


【原文链接】 阅读原文 [ 1549字 | 7分钟 ]
【原文作者】 AIGC开放社区
【摘要模型】 deepseek-r1
【摘要评分】 ★★★☆☆

© 版权声明
“绘蛙”

相关文章

“极客训练营”

暂无评论

暂无评论...