首次覆盖超 11 类真实编程场景！豆包大模型团队开源代码大模型全新基准

1,266 0 0

文章摘要

字节跳动豆包大模型团队近日开源了FullStack Bench，这是一个全新的代码评估数据集，专注于全栈编程和多语言编程。该数据集首次覆盖了超过11类真实场景，涉及16种编程语言，包含3374个问题，旨在更有效地评估大模型在现实世界中的代码开发能力。同时开源的还有SandboxFusion，一个高效的代码沙盒执行工具，用于评估不同语言的编程任务。

FullStack Bench的实验结果显示，它能够真实反映大模型在多种实际代码开发场景中的表现，有助于推动代码智能领域的进一步发展。该数据集的构建基于Stack Overflow的问题分布，筛选出主要应用领域，并由编程专家设计问题内容，经过AI和人工验证。SandboxFusion支持23种编程语言，能够满足不同应用场景的需求，并且可以轻松部署。

研究团队还基于FullStack Bench对全球20余款代码大模型及语言大模型的编程表现进行了评测，结果显示闭源模型普遍优于开源模型。此外，SandboxFusion的使用能够显著改善模型表现，证明了其反馈上下文的有效性。

FullStack Bench和SandboxFusion的开源，旨在为AI在真实编程场景中的表现潜力提供快速评估参考，推动代码大模型的发展。论文成果、数据集、沙盒体验入口均已对外公开，可通过提供的链接访问。