标签:编程评测

超越Devin!姚班带队,他们创大模型编程新世界纪录

新入局的StarShip CodeGen Agent表现惊艳,以23.67%的成绩夺得全球第二的位置,这一成绩同时刷新了非GPT-4o基模的全球最高纪录。SWEBench评测被认为高度贴近...

超越 Devin,姚班带队 OpenCSG 刷新大模型编程 SWEBench 评测榜单

中国初创公司OpenCSG推出的StarShip CodeGen Agent在全球编程评测排行榜上取得了显著成绩,以23.67%的通过率成为普林斯顿SWEBench排行榜的第二名,同时创下了...