连OpenAI都推不动Scaling Law了？MIT把「测试时训练」系统研究了一遍，发现还有路

AIGC动态9个月前发布 almosthuman2014

1,723 0 0

连OpenAI都推不动Scaling Law了？MIT把「测试时训练」系统研究了一遍，发现还有路

文章摘要

近期，AI社区对The Information的一篇文章反响强烈，该文章指出OpenAI下一代旗舰模型的质量提升可能不及前两款，原因是高质量文本和其他数据供应减少，原本的Scaling Law（用更多数据训练更大的模型）可能不再适用。OpenAI研究者Noam Brown提出，更先进的模型在经济上可能不具可行性，因为训练成本极高。这引发了业界对未来AI迭代方向的讨论。

尽管Scaling Law放缓令人担忧，但也有乐观声音。有人认为，尽管预训练的Scaling Law可能放缓，但推理的Scaling Law还未充分挖掘。OpenAI的o1模型通过后训练阶段的强化学习、原生思维链和更长推理时间，提升了大模型能力，这种范式被称为“测试时计算”。

除了测试时计算，另一个受关注的概念是测试时训练（TTT），它试图在测试阶段通过不同手段提升模型性能。与标准微调不同，TTT在一个数据量极低的环境中运行，通常是通过单个输入的无监督目标或应用于一两个in-context标注示例的有监督目标。

MIT的研究者在新论文中系统研究了TTT的设计选择及其与预训练和采样方案的相互作用。他们确定了将TTT有效应用于few-shot学习的几个关键要素：在与测试时类似的合成任务上进行初始微调；用于构建测试时数据集的增强型leave-1-out任务生成策略；训练适用于每个实例的适应器；可逆变换下的自我一致性方法。

实验表明，TTT可以显著提高语言模型在抽象与推理语料库（ARC）上的性能，在1B模型上将准确率提高到原来的6倍，使用8B模型时也超过其他已发布的SOTA纯神经模型方法。研究结果表明，当配备测试时训练时，普通语言模型可以在ARC任务上达到或超过许多神经-符号方法的性能，挑战了解决复杂任务必须严格依赖符号组件的假设。

Epoch AI与60多位顶尖数学家合作打造的FrontierMath，已成为评估人工智能高级数学推理能力的新基准，AI研究者面临新挑战。