世界首个AI程序员Devin视频竟造假？博主逐帧解析，Devin代码任务完成很糟糕

AIGC动态2年前 (2024)发布 AIera

3,056 0 0

世界首个AI程序员Devin视频竟造假？博主逐帧解析，Devin代码任务完成很糟糕

文章摘要

全球首个AI程序员Devin最近被指视频造假，引发了广泛的关注和讨论。YouTube博主通过逐帧分析Devin完成Upwork任务的宣传视频，发现Devin并不能像人类工程师一样独立完成任务，而且存在明显的问题。博主自己复制了Devin尝试做的任务，仅花费了36分钟，而Devin则用了至少6个小时，甚至可能超过一天。这一发现在社交平台上引起了热议，许多人开始质疑Devin的实际能力。

Devin的背后初创公司Cognition AI在官方博文中通过视频展示了AI的“魔力”，声称Devin自主完成了Upwork的一项任务。然而，YouTube博主的分析显示，Devin在实际操作中的能力并不如视频所示。博主指出，Devin并不是能做Upwork上的任何工作，而是在这项任务中，研究者精心挑选了“road damage”任务。在实际对话中，开发者You向Devin提出的要求与客户的要求不同，而Devin最终也没有按照客户的要求完成工作。

博主进一步分析了Devin在视频中的操作，发现Devin遇到了命令行错误，并且在处理一个不存在于项目代码仓库中的文件。Devin在创建错误的文件后，又进行了修正，但整个过程都是错误的且毫无意义。博主认为，这些都是软件开发者工作中最难的、最关键的、最耗时的一部分，而这些都是AI目前无法完成的任务。

视频中还展示了Devin更新了代码，但实际上，Devin并不是在修正自己在网上发现的代码，也不是在处理客户指定的问题代码，而是在修正自己生成的错误代码。博主认为，开发“检测道路损坏”的代码仓库的人已经尽可能地简化了使用说明，但Devin似乎还是没能理解。

博主自己复现Devin尝试做的任务时，发现了一个需要修复的错误，并在谷歌上搜索解决方案后迅速解决了问题。博主的操作与Devin的官方视频中的时间相比，显示了Devin完成任务的效率问题。

尽管Devin在SWE-bench基准测试中取得了惊人的成绩，能自主学习不熟悉的技术，端到端地构建和部署应用程序，改bug，甚至还能训练和微调自己的AI模型，但关于AI程序员能否解决真实问题的能力，仍应持保留态度。因为即便是借助了GPT-4 Turbo的能力，AI也并非是万能的。这次视频造假事件也让人们意识到，AI技术的营销和炒作可能与现实存在差距，需要更加谨慎地评估AI的实际应用能力。