首次覆盖超 11 类真实编程场景!豆包大模型团队开源代码大模型全新基准
文章摘要
【关 键 词】 代码评估、多语言编程、全栈编程、AI验证、开源工具
字节跳动豆包大模型团队近日开源了FullStack Bench,这是一个全新的代码评估数据集,专注于全栈编程和多语言编程。该数据集首次覆盖了超过11类真实场景,涉及16种编程语言,包含3374个问题,旨在更有效地评估大模型在现实世界中的代码开发能力。同时开源的还有SandboxFusion,一个高效的代码沙盒执行工具,用于评估不同语言的编程任务。
FullStack Bench的实验结果显示,它能够真实反映大模型在多种实际代码开发场景中的表现,有助于推动代码智能领域的进一步发展。该数据集的构建基于Stack Overflow的问题分布,筛选出主要应用领域,并由编程专家设计问题内容,经过AI和人工验证。SandboxFusion支持23种编程语言,能够满足不同应用场景的需求,并且可以轻松部署。
研究团队还基于FullStack Bench对全球20余款代码大模型及语言大模型的编程表现进行了评测,结果显示闭源模型普遍优于开源模型。此外,SandboxFusion的使用能够显著改善模型表现,证明了其反馈上下文的有效性。
FullStack Bench和SandboxFusion的开源,旨在为AI在真实编程场景中的表现潜力提供快速评估参考,推动代码大模型的发展。论文成果、数据集、沙盒体验入口均已对外公开,可通过提供的链接访问。
原文和模型
【原文链接】 阅读原文 [ 3178字 | 13分钟 ]
【原文作者】 AI科技评论
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★☆☆
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...