
文章摘要
Meta最新发布的Llama 4本应成为AI领域的焦点,然而却因一系列问题引发了广泛争议。开源首日,Llama 4的代码能力表现极差,甚至不如GPT-4o等现有模型。更令人震惊的是,内部员工爆料称,Llama 4在训练过程中存在作弊行为,高层建议将多个基准测试集混入训练数据,以短期提升模型指标。这种做法引发了内部员工的强烈不满,甚至有人因此辞职,并明确要求在技术报告中不要挂名。
Llama 4的表现不仅让用户失望,也引发了业内的广泛质疑。网友通过实测发现,Llama 4在生成动画、编程任务等场景中的表现远低于预期。例如,在生成旋转多边形动画的任务中,Llama 4生成的结果不符合物理规律,而GPT-4o的表现则相对更好。此外,Llama 4在LMarena平台上被指存在过拟合现象,进一步加剧了对其作弊的怀疑。
内部员工的爆料进一步证实了这些猜测。Meta高层在后训练阶段混入基准测试集的做法,被认为是为了让模型在测试中取得“好成绩”。这种做法不仅违背了科研伦理,也让Llama 4的真实能力受到质疑。沃顿商学院教授Ethan Mollick指出,经常使用AI模型的人不难分辨出哪些是针对基准测试优化的,哪些是真正的进步。
尽管有内部员工表示并未遇到类似情况,但Llama 4的表现已经让许多用户和开发者感到失望。网友普遍认为,Llama 4的编码能力甚至不如一些较小的模型,如Qwen-QwQ-32B和Gemma 3 27B。在针对编程任务的Kscores基准测试中,Llama 4的两个模型(Scout和Maverick)表现远低于GPT-4o、Gemini Flash等竞争对手。有网友直言,Llama 4是一个“糟糕的编程模型”,并建议Meta应专注于开发性能优秀的小模型,而不是追求成为SOTA。
Llama 4的发布不仅未能达到预期,反而暴露了Meta在AI研发中的一系列问题。从代码能力的不足到训练过程中的作弊行为,Llama 4的翻车事件让Meta的AI战略蒙上了一层阴影。未来,Meta如何应对这些挑战,能否在AI领域重新赢得信任,仍是一个未知数。
原文和模型
【原文链接】 阅读原文 [ 1274字 | 6分钟 ]
【原文作者】 新智元
【摘要模型】 deepseek-v3
【摘要评分】 ★★★☆☆