普林斯顿DeepMind用数学证明：LLM不是随机鹦鹉！「规模越大能力越强」有理论根据

AIGC动态1年前 (2024)发布 AIera

2,552 0 0

作者信息

【原文作者】 新智元
【作者简介】 智能+中国主平台，致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展，关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响，领航中国新智能时代。
【微信号】 AI_era

文章摘要

【关键词】 普林斯顿大学、DeepMind、大语言模型、数学证明、技能组合

普林斯顿大学和DeepMind的科学家，Sanjeev Arora和Anirudh Goyal，通过数学方法证明了大语言模型（LLM）的能力随着规模的增大而增强，并非仅仅是随机组合训练数据的结果。他们的研究起点是探讨LLM是否仅仅是一个随机鹦鹉，或者它实际上学会了某些技能，从而成为了具有涌现能力的智能体。这一问题曾被AI先驱Hinton和吴恩达讨论过，但未有明确结论。

Arora和Goyal的研究基于随机图理论，特别是二分图的概念，来模拟LLM的行为。在他们的模型中，一类节点代表文本片段，另一类节点代表理解这些文本所需的技能，如逻辑理解、计算能力等。通过分析这些节点之间的连接，他们试图解释LLM如何习得新技能。他们发现，随着LLM规模的增大，它在特定技能上的表现得到了提升，这是因为模型能够更好地将多种技能组合在一起，即使这些技能组合在训练数据中未曾出现过。

此外，Arora和Goyal还利用了所谓的神经缩放定律，这是一个描述模型规模、训练数据量与测试损失之间关系的方程，来支持他们的理论。他们认为，随着LLM的规模增大，其在测试数据上的损失会以特定方式减少，表明模型在技能方面的能力增强。

为了进一步验证他们的理论，研究团队设计了一种称为技能混合的方法，通过要求LLM生成展示特定技能的文本来评估其能力。测试结果显示，更大的模型，如GPT-4，能够更有效地组合多种技能来生成文本，其性能远超过较小的模型，如GPT-3.5。

Arora和Goyal的研究不仅挑战了LLM仅作为随机鹦鹉的观点，而且为理解和分析大语言模型的能力提供了一个新的理论框架。他们的工作表明，随着LLM规模的增大，它们能够展现出更复杂的理解和推理能力，这些能力是通过模型内部的技能组合实现的。