文章摘要
【关 键 词】 AI转变、性能瓶颈、成本高昂、推理优化、能源挑战
AI领域正面临重大转变,传统大模型的Scaling Law已遭遇瓶颈。OpenAI的下一代旗舰Orion和其他公司的大规模语言模型(LLM)如谷歌的Gemini 2.0和Anthropic的Opus 3.5均面临性能提升难题。这些模型的训练成本高昂,且系统复杂易出错,需要数月时间才能评估模型性能。
Ilya Sutskever,前OpenAI元老,现在SSI实验室的负责人,承认过去“越大越好”的Scaling理念已不再适用,强调需要“扩大正确的规模”。他提出,Scaling的对象和方法需要重新审视。当前超大规模语言模型的投入产出比(ROI)极低,训练成本高达数千万美元,且易于出现硬件故障。此外,易于获取的数据几乎已被耗尽,能源消耗和电力短缺也成为训练AI的障碍。
面对这些挑战,AI科学家正在探索新的Scaling方法。Ilya表示,扩展训练的结果已趋于平稳,意味着依靠大量未标记数据来理解语言模式和结构的训练阶段可能已到尽头。他暗示SSI正在研究一种全新的替代方法来扩展预训练,但未透露具体内容。
OpenAI似乎也找到了新方法,通过开发更类人思维的算法训练技术,可能克服追求更大规模LLM过程中的挑战。这些技术可能推动了OpenAI最近发布的o1模型,它们可能重塑AI竞赛格局,减少对能源和芯片资源的无限制需求。
全球顶尖AI实验室也在探索新方法。Meta提出了“思维偏好优化”(TPO),谷歌也在开发使用CoT方法的新模型,这些方法都通过在推理中使用更多算力来增强模型,而非仅增加训练数据和算力。这可能改变AI硬件竞争格局,减少对英伟达GPU的需求,为其他芯片制造商如Groq等提供机会。
随着Scaling Law的碰壁,AI领域可能从大规模预训练转向推理云,即分布式的、基于云的推理服务器。这种转变可能减少对英伟达等尖端AI芯片的需求,同时增加对推理芯片的需求。这标志着AI领域的一个重要转折点,从依赖大规模预训练转向更高效的推理计算。
原文和模型
【原文链接】 阅读原文 [ 3503字 | 15分钟 ]
【原文作者】 新智元
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★★