用最直观的动画，讲解LLM如何存储事实，3Blue1Brown的这个视频又火了

AIGC动态1年前 (2024)发布 almosthuman2014

2,802 0 0

文章摘要

【关键词】 语言模型、多层感知器、Transformer、信息处理、数学可视化

3Blue1Brown的最新视频深入探讨了大型语言模型（LLM）如何存储和处理信息。视频通过动画形式，生动地展示了LLM内部的工作原理，特别是多层感知器（MLP）在其中扮演的角色。MLP是LLM中的关键组件，尽管其结构相对简单，但理解其功能对于掌握LLM的运作至关重要。

视频首先介绍了Transformer的工作流程，这是一种基于已有token预测下一个token的模型，每个token都与一个高维向量相关联。这些向量通过注意力机制和MLP进行处理，以吸收来自训练模型的一般性知识和上下文信息。MLP在LLM中占据了大部分参数，约三分之二，这是因为它负责存储和处理信息，使得模型能够预测下一个token。

以“Michael Jordan plays the sport of _____”为例，视频解释了如何通过MLP存储和处理信息。在高维空间中，存在代表“Michael”、“Jordan”和“Basketball”的向量。通过训练，模型可以学习到这些向量之间的关系，从而预测出“basketball”作为接下来的文本。

MLP的内部细节包括线性投射过程，即将输入向量乘以一个大型矩阵，这个矩阵包含了模型参数。这个过程可以看作是矩阵的每一行与输入向量进行点乘，然后加上偏置向量。输出向量经过ReLU函数处理后，可以得到一个干净的值，其中所有零和负值都被截断为零。

GPT-3模型中的参数数量巨大，达到了1750亿。这些参数分布在多个MLP中，每个MLP都包含大量的矩阵乘法和偏置向量。视频还提到了叠加（Superposition）的概念，这可能有助于解释为什么LLM难以解释，以及它们的扩展性为何如此出色。

3Blue1Brown是一个专注于数学和人工智能领域的可视化教学频道，由斯坦福大学数学系毕业的Grant Sanderson创立。他的视频以直观的动画演示帮助观众理解复杂的概念，深受观众喜爱。通过这些视频，观众可以更深入地理解LLM的工作原理和MLP在其中的作用。