标签:AI评估

Ilya预言错了!华人Nature一作给RLHF「判死刑」,全球大模型都不可靠

剑桥大学等机构的研究人员在Nature上发表的论文中,对当前领先的大型语言模型(LLM)进行了全面评估,结果发现这些模型存在显著的不可靠性。研究团队对包括o1...

ChatGPT无法取代人类程序员! IEEE 35页论文测出困难编码正确率仅为0.66%

一项发表在IEEE TSE期刊上的研究对ChatGPT在代码生成任务上的表现进行了系统评估,使用了LeetCode题库作为数据集。研究结果显示,ChatGPT生成可用代码的能力...