Ilya错了，预训练没结束！LeCun等反击，「小模型时代」让奥特曼预言成真

341 0 0

文章摘要

Ilya Sutskever在NeurIPS 2024上提出“预训练结束了”的观点，引发了AI界的广泛讨论。他主张，由于数据资源的枯竭，预训练所需的大量数据即将耗尽，可能影响未来AI的发展方向。然而，这一观点遭到了包括谷歌的Logan Kilpatrick和前Meta的Dhruv Batra在内的业界专家的反对。他们认为，人类拥有的数据尚未耗尽，视频等非文本数据量依然庞大，视觉预训练问题尚未解决。

Epoch AI的报告指出，尽管当前进入了“小模型”周期，但下一代模型规模可能会再次增大。从2017年Transformer架构诞生到GPT-4发布，SOTA模型规模一直在增长，但增幅在减小。2023年，趋势逆转，当前SOTA模型参数可能比GPT-4小一个数量级。开源模型如Mistral Large 2和Llama 3.3参数更少，但性能超过GPT-4和Claude 3 Opus。闭源模型如GPT-4o和Claude 3.5 Sonnet参数规模可能在4000亿左右。

Epoch AI认为，当前模型规模缩小的原因包括：AI需求爆发导致模型瘦身、蒸馏技术让小模型更强大、Scaling Law的转变、推理方法改进以及合成数据的使用。尽管模型规模可能不会继续缩小，但短期内也不太可能超过GPT-4的规模。硬件进步可能促使更大模型变得更优，而较小模型在复杂任务上可能表现不佳。未来的模型可能会恢复或稍微超过GPT-4的规模，但具体趋势难以预测。理论上，当前硬件足以支持比GPT-4大50倍的模型，但更实用的AI可能比单纯追求参数规模更有意义。