“最强开源模型”被打假，CEO下场致歉，英伟达科学家：现有测试基准已经不靠谱了

1,972 0 0

文章摘要

近日，一款名为Reflection的70B开源大模型因其宣称的卓越性能受到广泛关注，但随后遭遇了一系列造假指控。该模型由小型创业团队开发，声称性能超越了包括Llama 3.1 405B、GPT-4o、Claude 3 Opus、Gemini 1.5 Pro在内的多个先进模型。然而，第三方测评机构Artificial Analysis指出，Reflection的官方测试成绩无法复现，其实际表现与宣传相去甚远。

面对质疑，Reflection的官方团队最初以上传版本有误为由进行辩解，并承诺会重新上传模型，但后续并无实际行动。此外，还有分析指出Reflection实际上是基于Llama 3模型经过LoRA改造，而非官方所称的Llama 3.1。在Hugging Face平台上，Reflection的JSON文件也显示为Llama 3，这进一步加深了外界的怀疑。

更严重的指控是Reflection可能套用了Claude模型。证据包括Reflection在某些问题上的输出与Claude 3.5-Soonet完全一致，以及在被询问身份时，Reflection会先声称自己是Meta打造的，随后又改口称自己是Claude。此外，Reflection在遇到“Claude”一词时会将其自动过滤，这些现象都指向了套壳的可能性。

Reflection合成数据供应商Glaive AI的创始人Sahil Chaudhary对此进行了回应，否认了套壳任何模型的指控，并表示正在整理证据以证明其说法。同时，他也在调查测试成绩问题的原因，并承诺会发布报告进行说明。

尽管如此，公众对官方的解释并不买账。例如，一位名为Boson的网友在Chaudhary的评论区表达了质疑，认为官方可能在说谎。此外，提供托管服务的Hyperbolic平台CTO Yuchen Jin也分享了与Reflection合作的幕后细节，包括模型上线后的表现问题和与官方的沟通过程。Jin最终认为应该下线Reflection的API并收回资源。

此次事件也引发了对大模型测试可靠性的讨论。英伟达高级科学家Jim Fan指出，现有的一些测试集容易造假，并推荐了独立第三方测评或用户投票的榜单作为更可信的评估方式。然而，也有声音指出即使是用户投票的榜单也可能被操纵，因此，寻找更可靠的测评方法成为当务之急。