超越 Devin,姚班带队 OpenCSG 刷新大模型编程 SWEBench 评测榜单

AI-Agent7个月前发布 aitechtalk
1,161 0 0
超越 Devin,姚班带队 OpenCSG 刷新大模型编程 SWEBench 评测榜单

 

文章摘要


【关 键 词】 初创公司编程评测代码生成智能体大模型时代

中国初创公司OpenCSG推出的StarShip CodeGen Agent在全球编程评测排行榜上取得了显著成绩,以23.67%的通过率成为普林斯顿SWEBench排行榜的第二名,同时创下了非GPT-4o基模的最高纪录。这一成就不仅体现了国内在推动语言模型实用性、智能化和自主化发展方面的领先地位,也标志着中国在真实编程挑战中逐步迎头赶上。

SWEBench评测作为一种端到端代码生成能力的量化评估工具,对AI模型在真实编程场景下的能力提出了极高要求。OpenCSG的突破得益于其对编程Agent的创新开发和大型模型算法的深度优化。公司采取了不同于传统LLM+RAG或通用Agent框架的方法,定制优化了针对软件研发领域的StarShip CodeGen Agent,并结合AST语法分析等软件工程方法,实现了各研发阶段的高精度代码生成。

在算法层面,OpenCSG的自适应教师模式针对代码版本变更问题进行优化,改善了基础模型的生成效果,尤其在API结构高频更新的项目中表现突出。此外,公司对开源理念的坚持,不仅推动了模型、代码和平台的开源,也促成了产品的快速迭代和市场的广泛认可。

OpenCSG的CEO陈冉和CTO王伟对公司的产品定位和未来发展充满信心。他们认为,大模型在生产力的提升上已无悬念,关键在于其应用形态和场景。StarShip作为OpenCSG的核心产品,旨在通过内置的智能体(如CodeReview Agent和CodeSearch Agent)组建数字员工团队,实现无需人工干预的独立工作。

除了StarShip,OpenCSG还推出了CSGHub、wukong预训练模型和CSGCoder等精准定位的产品,致力于让大模型赋能每个企业和个人。王伟强调,随着模型能力和工程技术的提升,数字员工将迎来质的飞跃,而OpenCSG正为这一变革做好准备,以期在即将到来的大模型时代发挥重要作用。

“极客训练营”

原文和模型


【原文链接】 阅读原文 [ 2097字 | 9分钟 ]
【原文作者】 AI科技评论
【摘要模型】 glm-4
【摘要评分】 ★★★★★

© 版权声明
“绘蛙”

相关文章

暂无评论

暂无评论...