连OpenAI都推不动Scaling Law了?MIT把「测试时训练」系统研究了一遍,发现还有路

连OpenAI都推不动Scaling Law了?MIT把「测试时训练」系统研究了一遍,发现还有路

 

文章摘要


【关 键 词】 AI迭代数据供应测试时计算测试时训练数学推理

近期,AI社区对The Information的一篇文章反响强烈,该文章指出OpenAI下一代旗舰模型的质量提升可能不及前两款,原因是高质量文本和其他数据供应减少,原本的Scaling Law(用更多数据训练更大的模型)可能不再适用。OpenAI研究者Noam Brown提出,更先进的模型在经济上可能不具可行性,因为训练成本极高。这引发了业界对未来AI迭代方向的讨论。

尽管Scaling Law放缓令人担忧,但也有乐观声音。有人认为,尽管预训练的Scaling Law可能放缓,但推理的Scaling Law还未充分挖掘。OpenAI的o1模型通过后训练阶段的强化学习、原生思维链和更长推理时间,提升了大模型能力,这种范式被称为“测试时计算”。

除了测试时计算,另一个受关注的概念是测试时训练(TTT),它试图在测试阶段通过不同手段提升模型性能。与标准微调不同,TTT在一个数据量极低的环境中运行,通常是通过单个输入的无监督目标或应用于一两个in-context标注示例的有监督目标。

MIT的研究者在新论文中系统研究了TTT的设计选择及其与预训练和采样方案的相互作用。他们确定了将TTT有效应用于few-shot学习的几个关键要素:在与测试时类似的合成任务上进行初始微调;用于构建测试时数据集的增强型leave-1-out任务生成策略;训练适用于每个实例的适应器;可逆变换下的自我一致性方法。

实验表明,TTT可以显著提高语言模型在抽象与推理语料库(ARC)上的性能,在1B模型上将准确率提高到原来的6倍,使用8B模型时也超过其他已发布的SOTA纯神经模型方法。研究结果表明,当配备测试时训练时,普通语言模型可以在ARC任务上达到或超过许多神经-符号方法的性能,挑战了解决复杂任务必须严格依赖符号组件的假设。

Epoch AI与60多位顶尖数学家合作打造的FrontierMath,已成为评估人工智能高级数学推理能力的新基准,AI研究者面临新挑战。

“极客训练营”

原文和模型


【原文链接】 阅读原文 [ 3065字 | 13分钟 ]
【原文作者】 机器之心
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★★

© 版权声明
“绘蛙”

相关文章

暂无评论

暂无评论...