标签：AI评估

Claude 3.7硬控马里奥90秒，GPT-4o开局暴毙！Karpathy直呼基准失效，游戏成LLM新战场

加州大学圣迭戈分校Hao AI Lab通过开发游戏智能体评估框架，为大型语言模型的性能测试开辟了新路径。研究团队利用《超级马里奥》《2048》和《俄罗斯方块》等...

AIGC动态

6个月前

Claude挣钱强于o1！OpenAI开源百万美元编码基准，检验大模型钞能力

OpenAI推出并开源了全新基准测试SWE-Lancer，旨在通过真实软件工程任务评估大模型的编码能力。该基准包含来自自由职业平台Upwork的1,488个任务，总价值达100...

AIGC动态

7个月前

Ilya预言错了！华人Nature一作给RLHF「判死刑」，全球大模型都不可靠

剑桥大学等机构的研究人员在Nature上发表的论文中，对当前领先的大型语言模型（LLM）进行了全面评估，结果发现这些模型存在显著的不可靠性。研究团队对包括o1...

AIGC动态

12个月前

ChatGPT无法取代人类程序员！ IEEE 35页论文测出困难编码正确率仅为0.66%

一项发表在IEEE TSE期刊上的研究对ChatGPT在代码生成任务上的表现进行了系统评估，使用了LeetCode题库作为数据集。研究结果显示，ChatGPT生成可用代码的能力...

AIGC动态

1年前 (2024)