「世界开源新王」跌落神坛?重测跑分暴跌实锤造假,2人团队光速「滑跪」

AIGC动态3个月前发布 AIera
518 0 0
「世界开源新王」跌落神坛?重测跑分暴跌实锤造假,2人团队光速「滑跪」

 

文章摘要


【关 键 词】 AI模型基准测试开源质疑性能问题社区反馈

Hyperwrite AI的联合创始人兼CEO Matt Shumer在9月5日宣布了一款名为Reflection 70B的AI模型,该模型基于Meta的开源Llama 3.1-70B进行了微调,并声称其性能可与顶级闭源模型相媲美。然而,不久后,该模型的基准测试结果受到质疑,因为独立测试者无法复现Shumer所声称的结果。Artificial Analysis的数据显示,Reflection 70B的表现甚至不如原始的Llama 3.1 70B。

开发者们还发现Reflection 70B可能是一个“套壳”模型,结合了Claude、GPT和Llama的特性。在Reddit和X等平台上,这一发现引发了广泛的质疑。为了解决这些疑问,Shumer和Glaive的创始人Sahil Chaudhary进行了调查,并最终确认Reflection 70B并未达到最初报告的基准。

Shumer在社交媒体上承认了这一错误,并表示对最终结果感到失望。他原本计划发布的基于LLaMA 3.1 450B微调的新模型也因此变得遥遥无期。网友们在评论区表达了失望,但也有人认为Reflection 70B的发布促使OpenAI发布了尚未完成的o1-preview。

英伟达的高级研究主管Jim Fan解释了基准测试结果可能被操纵的原因,包括根据测试集示例训练模型、提示工程、增加推理时间和更强的计算能力等。他认为,可靠的识别优秀模型的方法是使用LMSy的Arena聊天机器人或第三方提供商的私人基准测试。

Chaudhary在其博客上发布了关于Reflection 70B造假事件的事后分析报告,发现初始代码中的一个bug导致了基准测试结果的偏差。修正后的基准显示,Reflection 70B的性能略有下降,但仍然强劲。

团队最终发布了Reflection 70B的模型权重、训练数据、训练脚本和评估代码,以便社区进行复现和评估。复现的结果显示,在某些基准测试中性能有所提升,而在其他测试中则有所下降。Chaudhary还回应了关于数据集污染的质疑,并通过测试表明数据集并未与基准测试有明显重叠。

在模型开发过程中,Sahil和Matt在短时间内生成了Reflection的数据集,并在不同模型规模上进行了多次迭代。他们尝试通过反思微调方法让模型识别并修正错误。尽管在发布前没有进行充分的验证,但他们决定发布模型,并继续迭代数据和扩展规模。

发布后,模型面临了多种问题,包括难以下载和运行的权重文件、缺少特殊token等。Sahil在社区反馈后进行了debug,但未能发现明显问题,因此重新上传了模型。然而,新版本仍然存在问题,如config.json文件的错误。

Chaudhary承认了团队在发布过程中的错误,并反思了应该采取的正确做法。他指出,他们不应该在没有测试的情况下发布模型,应该有一种可行的方法来复现基准测试分数,并在发布前提及评估的方法。他们还应该同时传达模型的优点和缺点,并发布能够代表模型优缺点的基准测试。

尽管团队试图解决这些问题并发布了相关资源,但开源社区的网友们并不买账。AI研究员Alexander Moini质疑为什么花了一个月的时间才将模型权重传到Hugging Face上,而Hyperbolic Labs的联合创始人兼CTO Yuchen Jin对Sahil的澄清表示怀疑。其他网友也提出了对模型的质疑,包括数据集可能来自ChatGPT且未经过适当清洗。

尽管面临这些挑战,Shumer仍然坚持反思微调方法的正确性,并表示将继续研究这种方法。目前,基准测试结果并不总能反映模型的实际性能,因此对Reflection 70B的最终评价还有待观察。

“极客训练营”

原文和模型


【原文链接】 阅读原文 [ 4306字 | 18分钟 ]
【原文作者】 新智元
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★☆

© 版权声明
“绘蛙”

相关文章

暂无评论

暂无评论...