文章摘要
【关 键 词】 开源模型、造假指控、性能质疑、信任危机、测评方法
近日,一款名为Reflection的70B开源大模型因其宣称的卓越性能受到广泛关注,但随后遭遇了一系列造假指控。该模型由小型创业团队开发,声称性能超越了包括Llama 3.1 405B、GPT-4o、Claude 3 Opus、Gemini 1.5 Pro在内的多个先进模型。然而,第三方测评机构Artificial Analysis指出,Reflection的官方测试成绩无法复现,其实际表现与宣传相去甚远。
面对质疑,Reflection的官方团队最初以上传版本有误为由进行辩解,并承诺会重新上传模型,但后续并无实际行动。此外,还有分析指出Reflection实际上是基于Llama 3模型经过LoRA改造,而非官方所称的Llama 3.1。在Hugging Face平台上,Reflection的JSON文件也显示为Llama 3,这进一步加深了外界的怀疑。
更严重的指控是Reflection可能套用了Claude模型。证据包括Reflection在某些问题上的输出与Claude 3.5-Soonet完全一致,以及在被询问身份时,Reflection会先声称自己是Meta打造的,随后又改口称自己是Claude。此外,Reflection在遇到“Claude”一词时会将其自动过滤,这些现象都指向了套壳的可能性。
Reflection合成数据供应商Glaive AI的创始人Sahil Chaudhary对此进行了回应,否认了套壳任何模型的指控,并表示正在整理证据以证明其说法。同时,他也在调查测试成绩问题的原因,并承诺会发布报告进行说明。
尽管如此,公众对官方的解释并不买账。例如,一位名为Boson的网友在Chaudhary的评论区表达了质疑,认为官方可能在说谎。此外,提供托管服务的Hyperbolic平台CTO Yuchen Jin也分享了与Reflection合作的幕后细节,包括模型上线后的表现问题和与官方的沟通过程。Jin最终认为应该下线Reflection的API并收回资源。
此次事件也引发了对大模型测试可靠性的讨论。英伟达高级科学家Jim Fan指出,现有的一些测试集容易造假,并推荐了独立第三方测评或用户投票的榜单作为更可信的评估方式。然而,也有声音指出即使是用户投票的榜单也可能被操纵,因此,寻找更可靠的测评方法成为当务之急。
原文和模型
【原文链接】 阅读原文 [ 1374字 | 6分钟 ]
【原文作者】 量子位
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★☆☆