文章摘要
【关 键 词】 AI软件、性能卓越、GitHub Issue、自我改进、大模型支持
Genie,一款被誉为“地表最强”的AI软件工程师,以其卓越的性能在SWE-Bench评测中以30.07%的解决问题率夺得榜首,领先第二名57%。Genie能够像人类工程师一样解决实际软件问题,支持通过提示词、GitHub Issue、Linear Ticket或API等多种方式启动工作。以GitHub Issue为例,Genie能够自动解析问题、迭代思考所需文件、进行问题分析,并自动编写和运行代码,整个过程仅需84秒。
Genie背后的团队Cosine仅有5人,他们通过收集包含真实人类程序员开发活动的数据集,使用成果分析、静态分析、自我对弈、逐步验证等方法,以及基于大量标记数据训练的AI模型,使Genie能够模仿人类工程师的认知过程、逻辑和工作流。Genie的推理过程包括规划、检索、代码编写和代码运行四个主要步骤,突破了其他AI工程师的限制,能够处理多样化、高度情境化、前所未见的问题。
Genie的训练方法还包括自我改进机制,通过使用初代版本的Genie生成包含错误的合成数据,训练下一版模型,不断提高解决方案的准确性。此外,OpenAI提供的大模型支持也是Genie能力提升的关键,最新版本的Genie经过了数十亿token的数据训练。
Cosine团队虽然人数不多,但成员背景丰富,包括来自独角兽企业的成员、拥有管理全球团队经验的成员,以及从8岁开始编程的成员。团队的华人联合创始人Yang Li曾入选福布斯30 under 30。Genie的构想始于2022年,但直到大模型技术逐步成熟,Genie才得以实现。
目前,Genie已经开放了Waitlist申请,感兴趣的用户可以关注并申请体验这款强大的AI软件工程师。
原文和模型
【原文链接】 阅读原文 [ 1806字 | 8分钟 ]
【原文作者】 量子位
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★☆☆