首个AI程序员造假被抓，Devin再次“震撼”硅谷！扒皮视频文字详解附上

AI-Agent1年前 (2024)发布 QbitAI

2,291 0 0

文章摘要

首个AI程序员Devin被指控演示视频造假。油管程序员博主Internet of Bugs（光头哥）通过逐帧分析，指出Devin的演示视频存在多处问题，包括但不限于：处理的任务并非随机挑选、与客户需求出入大、自创bug后修复、操作过程中的无意义操作、代码修改水平低下等。光头哥还亲自完成了Devin演示视频中的任务，用时不到Devin的十分之一。

光头哥，一位35年软件行业从业者，对Devin的视频进行了详细的验证。他发现Devin所处理的任务并非随机，而是精心挑选的，并且与客户的实际需求有很大出入。Devin在操作过程中多次自创bug然后再修复，而且使用了过时的编程方法，没有发现或修复代码库中的真正错误。光头哥用谷歌搜索并按照GitHub上的评论修改代码，迅速解决了问题，而Devin却花了6个多小时。

Devin的造假事件引起了网友的广泛讨论，许多人对AI产品的炒作表示厌恶。尽管有人支持Devin，认为其未来几个月的能力将十分强大，但此次事件仍然对Devin的信誉造成了打击。

Devin是由Cognition AI推出的，号称“世界首个完全自主的AI软件工程师”，具备多项功能，包括自主查找并修复bug、训练和微调AI模型、修复开源库等。在SWE-bench基准测试中，Devin无需人类辅助，解决了13.86%的问题，超过了其他AI大模型的成绩。然而，Devin的技术演示和团队背景虽然引人注目，但此次造假事件让人质疑其真实能力。

此外，代码生成领域在过去一段时间里进展迅速，出现了多个类似Devin的项目，如MetaGPT的“开源版Devin”（Data Interpreter）、OpenDevin项目、普林斯顿的SWE-agent等，这些项目都在GitHub上获得了不少关注。

最后，Devin的造假事件让人们对AI能否取代程序员的问题产生了疑问，一方面可能让程序员松了口气，另一方面也让人对AI技术的真实水平感到失望。