讨论下一个token预测时，我们可能正在走进陷阱

AIGC动态1年前 (2024)发布 almosthuman2014

2,029 0 0

文章摘要

机器之心报道，编辑赵阳，最近围绕下一个token预测的讨论日益激烈。然而，许多人认为，下一个token预测的目标无法真正模拟人类思维。人类在执行计划之前会在头脑中进行细致的想象、策划和回溯，但这种策略并没有明确地构建在当今语言模型的框架中。对此，部分学者如LeCun在其论文中已有所评判。

苏黎世联邦理工学院的Gregor Bachmann和谷歌研究院的Vaishnavh Nagarajan在一篇论文中对这个话题进行了深入分析，指出了当前争论没有关注到的本质问题：即没有将训练阶段的teacher forcing模式和推理阶段的自回归模式加以区分。论文标题为：THE PITFALLS OF NEXT-TOKEN PREDICTION，项目地址为：https://github.com/gregorbachmann/Next-Token-Failures。

研究背景中提到，人们在进行语言表达或完成某项任务时，并不是在做下一个token的预测。然而，支持者认为每个token序列的分布都可以通过复杂的token预测模型进行模拟。这种简单粗暴的想法并不妨碍我们认为token预测模型的规划能力可能是很糟糕的。在这场争论中，人们并没有仔细区分以下两种类型的token预测方式：推理阶段的自回归（模型将自己之前的输出作为输入）和训练阶段的teacher-forcing（模型逐个对token进行预测，将所有之前的真值token作为输入）。

如果不能对这两种情况做出区分，那当模型预测错误时，对复合误差的分析往往只会将问题导向至推理过程，让人们觉得这是模型执行方面的问题。但这是一种肤浅的认知，人们会觉得已经得到了一个近乎完美的token预测模型。本文作者认为，基于token预测的学习方式（teacher-forcing）并不总是能学习到准确的token预测模型。

作者以一个问题为例，说明teacher-forcing在训练模型生成token时可能会产生“捷径”，即利用产生的基本事实答案来虚假地拟合未来的答案token。这种作弊方式可以称之为“聪明的汉斯”。接下来，当后面的token在这种作弊方法的作用下变得容易拟合时，相反，前面的答案token（如r_0、r_1等）却变得更难学习。这是因为它们不再附带任何关于完整答案的监督信息，因为部分监督信息被“聪明的汉斯”所剥夺。

作者认为，这两个缺陷会同时出现在“前瞻性任务”中：即需要在前一个token之前隐含地规划后一个token的任务。在这类任务中，teacher-forcing会导致token预测器的结果非常不准确，无法推广到未知问题p，甚至是独立同分布下的采样问题。作者通过图的路径搜索任务的实践，演示了一种假设的故障模式。本文在Transformer和Mamba中进行了实验，以证明这些问题对于teacher-forced模型来说是普遍的。

具体来说，先确定teacher-forced模型能符合训练数据，但在满足数据分布这个问题上存在不足。接下来，设计指标来量化上述两种假设机制发生的程度。最后，设计了替代目标来干预和消除两种故障模式中的每一种，以测试性能是否有所改善。本文对两种模型家族进行了评估，以强调问题的出现与某种特定体系结构无关，而是源于下一个token预测这个设计目标。

对于Transformer，使用从头开始的GPT-Mini和预训练的GPT-2大模型。对于递归模型，使用从头开始的Mamba模型。本文使用AdamW进行优化，直到达到完美的训练精度。为了排除顿悟现象（grokking），本文对成本相对较低的模型进行了长达500个epoch的训练。

本文在图3和表2中描述了不同拓扑路径的星形图的。可以观察到，所有模型（即使经过预训练）都很难准确地学习任务。如果模型一致地猜测认为v_start≈1/d，并由此在分布上产生问题，则精度值能被严格限制。即使在训练以拟合高达200k的量级到100%准确度的样本量时也是如此，尽管训练用的图结构和测试用的图结构具有相同的拓扑结构。接下来，本文定量地证明了这种明显的问题是如何由上述两个假设机制产生的。

通过表1可以发现，为了拟合训练数据，teacher-forced模型利用了“聪明的汉斯”作弊方法。图3和表3显示了无教师模型的准确率。不幸的是，在大多数情况下，无教师的训练目标对模型来说太难了，甚至无法拟合训练数据，这可能是因为缺乏简单有效的欺骗手段。然而，令人惊讶的是，在一些更容易的图结构上，模型不仅适合于训练数据，而且可以很好地泛化到测试数据。这个优秀的结果（即使在有限的环境中）验证了两个假设。首先，“聪明的汉斯”作弊方法确实是造成原有teacher-forcing模式失败的原因之一。其次，值得注意的是，随着作弊行为的消失，这些模型能够拟合第一个节点，而这个节点曾经在teacher-forcing模式下是不可破译的。综上所述，本文所提出的假设可以说是得到了验证了，即“聪明的汉斯”作弊方法抹去了对学习第一个token的至关重要的监督。

本文的贡献总结如下：
1. 本文整合了针对下一个token预测的现有批评意见，并将新的核心争议点具体化；
2. 本文指出，对下一个token预测的争论不能混淆自回归推断与teacher-forcing，两者导致的失败的原因大相径庭；
3. 本文从概念上论证了在前瞻任务中，训练过程中的下一个token预测（即teacher-forcing）可能会产生有问题的学习机制，甚至产生分布上的问题；
4. 本文设计了一个最小前瞻任务。通过实证证明，尽管该任务很容易学习，但对于Transformer和Mamba架构来说，teacher-forcing是失败的；
5. 本文发现，Monea et al.为实现正交推理时间效率目标而提出的同时预测多个未来token的无教师训练形式，有望在某些情况下规避这些训练阶段上的失败。这进一步证明了下一个token预测的局限性。

本文的实验和分析表明，下一个token预测在某些任务上可能并不是最佳的方法。作者希望这些研究结果能够启发未来围绕下一个token预测的讨论，并为其奠定坚实的基础。具体来说，作者认为，下一个token预测目标在上述这个简单任务上的失败，为其在更复杂任务（比如学习写故事）上的应用前景蒙上了阴影。作者还希望，这个失败的例子和无教师训练方法所产生的正面结果，能够激励人们采用其他的训练范式。