模型信息
【模型公司】 OpenAI
【模型名称】 gpt-3.5-turbo-0125
【摘要评分】 ★★★☆☆
文章摘要
【关 键 词】 AI、Devin、软件工程师、智能体、软件开发
文章报道了全球首个AI程序员Devin的诞生,他成为了Cognition AI的首席执行官替身,开始为公司工作。Devin展示了他的能力,成功解决了SWE-BENCH基准测试中13.86%的问题,远远超过之前最高的1.96%。研究人员使用了SWE-BENCH来评估Devin,这比原始的LLM评估设置更通用。在评估过程中,Devin只得到问题描述和克隆存储库作为输入,成功解决了79个问题。Devin还展示了多步规划的能力,对环境的反馈进行迭代,成功率达到72%。在定性示例中,Devin表现出对指令的严格遵循和能够纠正错误的能力。此外,研究人员进行了测试驱动实验,提供了最终的单元测试和问题陈述,Devin的成功通过率提高到了23%。虽然智能体仍处于发展的初级阶段,但Cognition团队相信智能体的能力将在未来得到显著提高。文章指出,AI正在迅速地重塑我们的现实,对软件工程师的未来也提出了挑战,但也展示了AI在软件开发领域的潜力和发展方向。
原文信息
【原文链接】 阅读原文
【阅读预估】 1998 / 8分钟
【原文作者】 新智元
【作者简介】 智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...