「世界开源新王」跌落神坛？重测跑分暴跌实锤造假，2人团队光速「滑跪」

2,137 0 0

文章摘要

Hyperwrite AI的联合创始人兼CEO Matt Shumer在9月5日宣布了一款名为Reflection 70B的AI模型，该模型基于Meta的开源Llama 3.1-70B进行了微调，并声称其性能可与顶级闭源模型相媲美。然而，不久后，该模型的基准测试结果受到质疑，因为独立测试者无法复现Shumer所声称的结果。Artificial Analysis的数据显示，Reflection 70B的表现甚至不如原始的Llama 3.1 70B。

开发者们还发现Reflection 70B可能是一个“套壳”模型，结合了Claude、GPT和Llama的特性。在Reddit和X等平台上，这一发现引发了广泛的质疑。为了解决这些疑问，Shumer和Glaive的创始人Sahil Chaudhary进行了调查，并最终确认Reflection 70B并未达到最初报告的基准。

Shumer在社交媒体上承认了这一错误，并表示对最终结果感到失望。他原本计划发布的基于LLaMA 3.1 450B微调的新模型也因此变得遥遥无期。网友们在评论区表达了失望，但也有人认为Reflection 70B的发布促使OpenAI发布了尚未完成的o1-preview。

英伟达的高级研究主管Jim Fan解释了基准测试结果可能被操纵的原因，包括根据测试集示例训练模型、提示工程、增加推理时间和更强的计算能力等。他认为，可靠的识别优秀模型的方法是使用LMSy的Arena聊天机器人或第三方提供商的私人基准测试。

Chaudhary在其博客上发布了关于Reflection 70B造假事件的事后分析报告，发现初始代码中的一个bug导致了基准测试结果的偏差。修正后的基准显示，Reflection 70B的性能略有下降，但仍然强劲。

团队最终发布了Reflection 70B的模型权重、训练数据、训练脚本和评估代码，以便社区进行复现和评估。复现的结果显示，在某些基准测试中性能有所提升，而在其他测试中则有所下降。Chaudhary还回应了关于数据集污染的质疑，并通过测试表明数据集并未与基准测试有明显重叠。

在模型开发过程中，Sahil和Matt在短时间内生成了Reflection的数据集，并在不同模型规模上进行了多次迭代。他们尝试通过反思微调方法让模型识别并修正错误。尽管在发布前没有进行充分的验证，但他们决定发布模型，并继续迭代数据和扩展规模。

发布后，模型面临了多种问题，包括难以下载和运行的权重文件、缺少特殊token等。Sahil在社区反馈后进行了debug，但未能发现明显问题，因此重新上传了模型。然而，新版本仍然存在问题，如config.json文件的错误。

Chaudhary承认了团队在发布过程中的错误，并反思了应该采取的正确做法。他指出，他们不应该在没有测试的情况下发布模型，应该有一种可行的方法来复现基准测试分数，并在发布前提及评估的方法。他们还应该同时传达模型的优点和缺点，并发布能够代表模型优缺点的基准测试。

尽管团队试图解决这些问题并发布了相关资源，但开源社区的网友们并不买账。AI研究员Alexander Moini质疑为什么花了一个月的时间才将模型权重传到Hugging Face上，而Hyperbolic Labs的联合创始人兼CTO Yuchen Jin对Sahil的澄清表示怀疑。其他网友也提出了对模型的质疑，包括数据集可能来自ChatGPT且未经过适当清洗。

尽管面临这些挑战，Shumer仍然坚持反思微调方法的正确性，并表示将继续研究这种方法。目前，基准测试结果并不总能反映模型的实际性能，因此对Reflection 70B的最终评价还有待观察。