
文章摘要
Meta最新发布的基础模型Llama 4在发布36小时后,引发了广泛的负面评价,尤其是在代码能力方面表现不佳。经典的小球反弹测试中,模型未能正确模拟物理效果,小球直接穿过墙壁,这一直观的失败引发了用户的不满。尽管在官方测评和大模型竞技场中,Llama 4的表现看似不错,但在各种第三方基准测试中,其成绩却大幅下滑,甚至排名末尾。这种割裂的表现让人怀疑,官方测评是否存在数据过拟合或刷票行为。
与此同时,Meta AI研究主管Joelle Pineau在Llama 4发布前几天突然宣布离职,这一事件进一步加剧了外界对模型质量的质疑。就在用户和开发者对Llama 4的表现感到困惑时,一则匿名爆料引发了更大的关注。爆料者声称已向Meta GenAI部门提交辞职,并要求不要将自己的名字列入Llama 4的技术报告中。这一爆料虽未得到证实,但Meta GenAI负责人Ahmad Al-Dahle的帖子似乎暗示,竞技场中运行的可能是特殊版本的模型。此外,Meta前员工还指出,从Llama 1开始,数据泄露问题就一直存在。
Llama 4的问题不仅限于代码能力,在EQBench测评基准的长文章写作测试中,其表现同样令人失望。测试要求模型完成短篇小说的创作,包括头脑风暴、反思和修改写作计划,最终生成8000字以上的作品。然而,Llama 4在写作过程中出现了大段内容重复和公式化的问题,导致其在榜单中垫底。有猜测认为,这可能与Meta因版权诉讼而删除了大量网络和书籍数据,转而使用更多合成数据有关。此前,许多作家发现自己的作品可能被用于AI训练,并在Meta办公室附近发起抗议。
Llama 4发布后的种种问题,让人联想到年初的另一则匿名爆料。爆料称,Deepseek v3的发布让Meta内部陷入恐慌,因为Llama 4在训练中已显得落后,而中层管理的薪水甚至超过了DeepSeek V3的训练成本。这一爆料虽然最初被视为无稽之谈,但随着Llama 4的表现不佳,越来越多的人开始相信其真实性。DeepSeel-R1的快速崛起,似乎让Meta在短短两个月内感受到了巨大的竞争压力。
原文和模型
【原文链接】 阅读原文 [ 768字 | 4分钟 ]
【原文作者】 量子位
【摘要模型】 deepseek-v3
【摘要评分】 ★☆☆☆☆