Transformer本可以深谋远虑,但就是不做

Transformer本可以深谋远虑,但就是不做

 

文章摘要


【关 键 词】 语言模型预测隐藏状态数据整理深谋远虑

这篇报道探讨了语言模型是否会规划未来token的问题。研究发现,虽然Transformer有能力预测未来token,但在实践中并不会这样做。人类在使用语言时会预测即将出现的语言输入,而现在的语言模型在说话时为每个token分配固定的计算量,不像人类那样预先性地思考。最近的研究表明,可以通过探查语言模型的隐藏状态来预测未来的token。科罗拉多大学博尔德分校和康奈尔大学的研究者发布了一篇论文,观察到在训练期间的梯度会为当前token位置的损失优化权重,也会为序列后面的token进行优化。他们提出了预缓存假设和面包屑假设,通过实验发现Transformer在某些情况下会学习预缓存。然而,在真实语言数据上,语言模型并不会显著准备未来的信息,而是计算对预测下一个token有用的特征。因此,Transformer是否能深谋远虑似乎是一个数据问题,未来可能通过合适的数据整理方法让语言模型具备人类一样预先思考的能力。

原文和模型


【原文链接】 阅读原文 [ 1276字 | 6分钟 ]
【原文作者】 机器之心
【摘要模型】 gpt-3.5-turbo-0125
【摘要评分】 ★☆☆☆☆

© 版权声明

相关文章

暂无评论

暂无评论...