标签:代码评估
全球首测!OpenAI开源SWELancer,大模型冲击100万年薪
OpenAI近日开源了名为SWE-Lancer的新型大模型代码能力评估基准,该测试基准通过真实软件开发任务和端到端测试方法,为评估大语言模型的工程实践能力提供了新...
首次覆盖超 11 类真实编程场景!豆包大模型团队开源代码大模型全新基准
字节跳动豆包大模型团队近日开源了FullStack Bench,这是一个全新的代码评估数据集,专注于全栈编程和多语言编程。该数据集首次覆盖了超过11类真实场景,涉及...