ChatGPT无法取代人类程序员! IEEE 35页论文测出困难编码正确率仅为0.66%

AIGC动态5个月前发布 AIera
923 0 0
ChatGPT无法取代人类程序员! IEEE 35页论文测出困难编码正确率仅为0.66%

 

文章摘要


【关 键 词】 代码生成AI评估LeetCode编程语言安全性问题

一项发表在IEEE TSE期刊上的研究对ChatGPT在代码生成任务上的表现进行了系统评估,使用了LeetCode题库作为数据集。研究结果显示,ChatGPT生成可用代码的能力存在显著差异,成功率波动在0.66%到89%之间,这一结果受到任务难度、编程语言等因素的影响。尽管在某些情况下,AI能够生成比人类更优质的代码,但同时也暴露出了一些安全性问题

研究由格拉斯哥大学助理教授Yutian Tang主导,测试了GPT-3.5在5种编程语言(C、C++、Java、JavaScript和Python)中解决LeetCode平台上的728个编码问题,以及应对18个CWE(常见缺陷枚举)场景的能力。研究发现,在2021年之前的问题上,ChatGPT的表现较好,无论是简单、中等还是困难问题,其生成可运行代码的成功率分别约为89%、71%和40%。然而,对于2021年之后的问题,即使是简单级别的问题,ChatGPT有时也无法正确理解问题的含义,导致成功率大幅下降。

评估过程包括构造合适的提示发送给ChatGPT,然后利用LeetCode平台的在线判断功能和CodeQL工具手动分析CWE漏洞,以检验代码的正确性。如果ChatGPT在5轮对话内未能生成通过测试的代码,则任务被认为失败。研究指出,AI代码生成可以在一定程度上提升开发效率并自动化软件工程,但同时也强调了认识这类模型的优势和不足的重要性,以便合理应用并改进生成技术。

此外,有网友提出疑问,是否意味着人类程序员的工作仍不可替代,而其他人则指出,随着GPT-4等更先进的模型的出现,编码能力可能已大幅提升。尽管如此,对GPT-3.5模型的评估为理解当前AI在编程领域的能力和局限提供了重要视角。

豆包-智能助手

原文和模型


【原文链接】 阅读原文 [ 5960字 | 24分钟 ]
【原文作者】 新智元
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★☆

© 版权声明

相关文章

暂无评论

暂无评论...