世界首个AI程序员Devin视频竟造假?博主逐帧解析,Devin代码任务完成很糟糕

AIGC动态3个月前发布 AIera
270 0 0
世界首个AI程序员Devin视频竟造假?博主逐帧解析,Devin代码任务完成很糟糕

 

文章摘要


【关 键 词】 AI程序员视频造假逐帧分析技术炒作能力质疑

全球首个AI程序员Devin最近被指视频造假,引发了广泛的关注和讨论。YouTube博主通过逐帧分析Devin完成Upwork任务的宣传视频,发现Devin并不能像人类工程师一样独立完成任务,而且存在明显的问题。博主自己复制了Devin尝试做的任务,仅花费了36分钟,而Devin则用了至少6个小时,甚至可能超过一天。这一发现在社交平台上引起了热议,许多人开始质疑Devin的实际能力。

Devin的背后初创公司Cognition AI在官方博文中通过视频展示了AI的“魔力”,声称Devin自主完成了Upwork的一项任务。然而,YouTube博主的分析显示,Devin在实际操作中的能力并不如视频所示。博主指出,Devin并不是能做Upwork上的任何工作,而是在这项任务中,研究者精心挑选了“road damage”任务。在实际对话中,开发者You向Devin提出的要求与客户的要求不同,而Devin最终也没有按照客户的要求完成工作。

博主进一步分析了Devin在视频中的操作,发现Devin遇到了命令行错误,并且在处理一个不存在于项目代码仓库中的文件。Devin在创建错误的文件后,又进行了修正,但整个过程都是错误的且毫无意义。博主认为,这些都是软件开发者工作中最难的、最关键的、最耗时的一部分,而这些都是AI目前无法完成的任务。

视频中还展示了Devin更新了代码,但实际上,Devin并不是在修正自己在网上发现的代码,也不是在处理客户指定的问题代码,而是在修正自己生成的错误代码。博主认为,开发“检测道路损坏”的代码仓库的人已经尽可能地简化了使用说明,但Devin似乎还是没能理解。

博主自己复现Devin尝试做的任务时,发现了一个需要修复的错误,并在谷歌上搜索解决方案后迅速解决了问题。博主的操作与Devin的官方视频中的时间相比,显示了Devin完成任务的效率问题。

尽管Devin在SWE-bench基准测试中取得了惊人的成绩,能自主学习不熟悉的技术,端到端地构建和部署应用程序,改bug,甚至还能训练和微调自己的AI模型,但关于AI程序员能否解决真实问题的能力,仍应持保留态度。因为即便是借助了GPT-4 Turbo的能力,AI也并非是万能的。这次视频造假事件也让人们意识到,AI技术的营销和炒作可能与现实存在差距,需要更加谨慎地评估AI的实际应用能力。

原文和模型


【原文链接】 阅读原文 [ 2593字 | 11分钟 ]
【原文作者】 新智元
【摘要模型】 gpt-4
【摘要评分】 ★★★★★

© 版权声明
讯飞星火大模型

相关文章

星火内容运营大师

暂无评论

暂无评论...