文章摘要
【关 键 词】 预训练争议、数据资源、模型规模、AI发展、硬件进步
Ilya Sutskever在NeurIPS 2024上提出“预训练结束了”的观点,引发了AI界的广泛讨论。他主张,由于数据资源的枯竭,预训练所需的大量数据即将耗尽,可能影响未来AI的发展方向。然而,这一观点遭到了包括谷歌的Logan Kilpatrick和前Meta的Dhruv Batra在内的业界专家的反对。他们认为,人类拥有的数据尚未耗尽,视频等非文本数据量依然庞大,视觉预训练问题尚未解决。
Epoch AI的报告指出,尽管当前进入了“小模型”周期,但下一代模型规模可能会再次增大。从2017年Transformer架构诞生到GPT-4发布,SOTA模型规模一直在增长,但增幅在减小。2023年,趋势逆转,当前SOTA模型参数可能比GPT-4小一个数量级。开源模型如Mistral Large 2和Llama 3.3参数更少,但性能超过GPT-4和Claude 3 Opus。闭源模型如GPT-4o和Claude 3.5 Sonnet参数规模可能在4000亿左右。
Epoch AI认为,当前模型规模缩小的原因包括:AI需求爆发导致模型瘦身、蒸馏技术让小模型更强大、Scaling Law的转变、推理方法改进以及合成数据的使用。尽管模型规模可能不会继续缩小,但短期内也不太可能超过GPT-4的规模。硬件进步可能促使更大模型变得更优,而较小模型在复杂任务上可能表现不佳。未来的模型可能会恢复或稍微超过GPT-4的规模,但具体趋势难以预测。理论上,当前硬件足以支持比GPT-4大50倍的模型,但更实用的AI可能比单纯追求参数规模更有意义。
原文和模型
【原文链接】 阅读原文 [ 2774字 | 12分钟 ]
【原文作者】 新智元
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★☆☆☆