作者信息
【原文作者】 新智元
【作者简介】 智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。
【微 信 号】 AI_era
文章摘要
【关 键 词】 普林斯顿大学、DeepMind、大语言模型、数学证明、技能组合
普林斯顿大学和DeepMind的科学家,Sanjeev Arora和Anirudh Goyal,通过数学方法证明了大语言模型(LLM)的能力随着规模的增大而增强,并非仅仅是随机组合训练数据的结果。他们的研究起点是探讨LLM是否仅仅是一个随机鹦鹉,或者它实际上学会了某些技能,从而成为了具有涌现能力的智能体。这一问题曾被AI先驱Hinton和吴恩达讨论过,但未有明确结论。
Arora和Goyal的研究基于随机图理论,特别是二分图的概念,来模拟LLM的行为。在他们的模型中,一类节点代表文本片段,另一类节点代表理解这些文本所需的技能,如逻辑理解、计算能力等。通过分析这些节点之间的连接,他们试图解释LLM如何习得新技能。他们发现,随着LLM规模的增大,它在特定技能上的表现得到了提升,这是因为模型能够更好地将多种技能组合在一起,即使这些技能组合在训练数据中未曾出现过。
此外,Arora和Goyal还利用了所谓的神经缩放定律,这是一个描述模型规模、训练数据量与测试损失之间关系的方程,来支持他们的理论。他们认为,随着LLM的规模增大,其在测试数据上的损失会以特定方式减少,表明模型在技能方面的能力增强。
为了进一步验证他们的理论,研究团队设计了一种称为技能混合的方法,通过要求LLM生成展示特定技能的文本来评估其能力。测试结果显示,更大的模型,如GPT-4,能够更有效地组合多种技能来生成文本,其性能远超过较小的模型,如GPT-3.5。
Arora和Goyal的研究不仅挑战了LLM仅作为随机鹦鹉的观点,而且为理解和分析大语言模型的能力提供了一个新的理论框架。他们的工作表明,随着LLM规模的增大,它们能够展现出更复杂的理解和推理能力,这些能力是通过模型内部的技能组合实现的。
原文信息
【原文链接】 阅读原文
【原文字数】 3208
【阅读时长】 11分钟