Llama 4发布36小时差评如潮！匿名员工爆料拒绝署名技术报告

1,678 0 0

文章摘要

Meta最新发布的基础模型Llama 4在发布36小时后，引发了广泛的负面评价，尤其是在代码能力方面表现不佳。经典的小球反弹测试中，模型未能正确模拟物理效果，小球直接穿过墙壁，这一直观的失败引发了用户的不满。尽管在官方测评和大模型竞技场中，Llama 4的表现看似不错，但在各种第三方基准测试中，其成绩却大幅下滑，甚至排名末尾。这种割裂的表现让人怀疑，官方测评是否存在数据过拟合或刷票行为。

与此同时，Meta AI研究主管Joelle Pineau在Llama 4发布前几天突然宣布离职，这一事件进一步加剧了外界对模型质量的质疑。就在用户和开发者对Llama 4的表现感到困惑时，一则匿名爆料引发了更大的关注。爆料者声称已向Meta GenAI部门提交辞职，并要求不要将自己的名字列入Llama 4的技术报告中。这一爆料虽未得到证实，但Meta GenAI负责人Ahmad Al-Dahle的帖子似乎暗示，竞技场中运行的可能是特殊版本的模型。此外，Meta前员工还指出，从Llama 1开始，数据泄露问题就一直存在。

Llama 4的问题不仅限于代码能力，在EQBench测评基准的长文章写作测试中，其表现同样令人失望。测试要求模型完成短篇小说的创作，包括头脑风暴、反思和修改写作计划，最终生成8000字以上的作品。然而，Llama 4在写作过程中出现了大段内容重复和公式化的问题，导致其在榜单中垫底。有猜测认为，这可能与Meta因版权诉讼而删除了大量网络和书籍数据，转而使用更多合成数据有关。此前，许多作家发现自己的作品可能被用于AI训练，并在Meta办公室附近发起抗议。

Llama 4发布后的种种问题，让人联想到年初的另一则匿名爆料。爆料称，Deepseek v3的发布让Meta内部陷入恐慌，因为Llama 4在训练中已显得落后，而中层管理的薪水甚至超过了DeepSeek V3的训练成本。这一爆料虽然最初被视为无稽之谈，但随着Llama 4的表现不佳，越来越多的人开始相信其真实性。DeepSeel-R1的快速崛起，似乎让Meta在短短两个月内感受到了巨大的竞争压力。