标签:AI评估

Claude挣钱强于o1!OpenAI开源百万美元编码基准,检验大模型钞能力

OpenAI推出并开源了全新基准测试SWE-Lancer,旨在通过真实软件工程任务评估大模型的编码能力。该基准包含来自自由职业平台Upwork的1,488个任务,总价值达100...

Ilya预言错了!华人Nature一作给RLHF「判死刑」,全球大模型都不可靠

剑桥大学等机构的研究人员在Nature上发表的论文中,对当前领先的大型语言模型(LLM)进行了全面评估,结果发现这些模型存在显著的不可靠性。研究团队对包括o1...

ChatGPT无法取代人类程序员! IEEE 35页论文测出困难编码正确率仅为0.66%

一项发表在IEEE TSE期刊上的研究对ChatGPT在代码生成任务上的表现进行了系统评估,使用了LeetCode题库作为数据集。研究结果显示,ChatGPT生成可用代码的能力...