“最强开源模型”被打假,CEO下场致歉,英伟达科学家:现有测试基准已经不靠谱了

AIGC动态2个月前发布 QbitAI
370 0 0
“最强开源模型”被打假,CEO下场致歉,英伟达科学家:现有测试基准已经不靠谱了

 

文章摘要


【关 键 词】 开源模型造假指控性能质疑信任危机测评方法

近日,一款名为Reflection的70B开源大模型因其宣称的卓越性能受到广泛关注,但随后遭遇了一系列造假指控。该模型由小型创业团队开发,声称性能超越了包括Llama 3.1 405B、GPT-4o、Claude 3 Opus、Gemini 1.5 Pro在内的多个先进模型。然而,第三方测评机构Artificial Analysis指出,Reflection的官方测试成绩无法复现,其实际表现与宣传相去甚远。

面对质疑,Reflection的官方团队最初以上传版本有误为由进行辩解,并承诺会重新上传模型,但后续并无实际行动。此外,还有分析指出Reflection实际上是基于Llama 3模型经过LoRA改造,而非官方所称的Llama 3.1。在Hugging Face平台上,Reflection的JSON文件也显示为Llama 3,这进一步加深了外界的怀疑。

更严重的指控是Reflection可能套用了Claude模型。证据包括Reflection在某些问题上的输出与Claude 3.5-Soonet完全一致,以及在被询问身份时,Reflection会先声称自己是Meta打造的,随后又改口称自己是Claude。此外,Reflection在遇到“Claude”一词时会将其自动过滤,这些现象都指向了套壳的可能性。

Reflection合成数据供应商Glaive AI的创始人Sahil Chaudhary对此进行了回应,否认了套壳任何模型的指控,并表示正在整理证据以证明其说法。同时,他也在调查测试成绩问题的原因,并承诺会发布报告进行说明。

尽管如此,公众对官方的解释并不买账。例如,一位名为Boson的网友在Chaudhary的评论区表达了质疑,认为官方可能在说谎。此外,提供托管服务的Hyperbolic平台CTO Yuchen Jin也分享了与Reflection合作的幕后细节,包括模型上线后的表现问题和与官方的沟通过程。Jin最终认为应该下线Reflection的API并收回资源。

此次事件也引发了对大模型测试可靠性的讨论。英伟达高级科学家Jim Fan指出,现有的一些测试集容易造假,并推荐了独立第三方测评或用户投票的榜单作为更可信的评估方式。然而,也有声音指出即使是用户投票的榜单也可能被操纵,因此,寻找更可靠的测评方法成为当务之急。

豆包-智能助手

原文和模型


【原文链接】 阅读原文 [ 1374字 | 6分钟 ]
【原文作者】 量子位
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★☆☆

© 版权声明

相关文章

暂无评论

暂无评论...