标签：代码评估

全球首测！OpenAI开源SWELancer，大模型冲击100万年薪

OpenAI近日开源了名为SWE-Lancer的新型大模型代码能力评估基准，该测试基准通过真实软件开发任务和端到端测试方法，为评估大语言模型的工程实践能力提供了新...

AIGC动态

7个月前

首次覆盖超 11 类真实编程场景！豆包大模型团队开源代码大模型全新基准

字节跳动豆包大模型团队近日开源了FullStack Bench，这是一个全新的代码评估数据集，专注于全栈编程和多语言编程。该数据集首次覆盖了超过11类真实场景，涉及...

AIGC动态

9个月前