标签:SWE-bench

刚刚,OpenAI又双叒叕鸽了!没等来“草莓”发布,只敷衍发了评测集,网友:拿这来抢谷歌发布会风头?

OpenAI和谷歌在人工智能领域的竞争并未如外界预期那样激烈。OpenAI发布了一系列指标,作为其安全开发和部署前沿模型的方法的一部分,这些指标用于评估和预测...

首个AI软件工程师Devin完整技术报告出炉,还有人用GPT做出了「复刻版」

Cognition AI 团队最近发布了首个 AI 软件工程师 Devin,这一事件在 AI 社区引起了广泛关注,并引发了对程序员职业未来前景的讨论。Devin 的能力通过 SWE-ben...