Transformer本可以深谋远虑，但就是不做

AIGC动态1年前 (2024)发布 almosthuman2014

1,881 0 0

Transformer本可以深谋远虑，但就是不做

文章摘要

【关键词】 语言模型、预测、隐藏状态、数据整理、深谋远虑

这篇报道探讨了语言模型是否会规划未来token的问题。研究发现，虽然Transformer有能力预测未来token，但在实践中并不会这样做。人类在使用语言时会预测即将出现的语言输入，而现在的语言模型在说话时为每个token分配固定的计算量，不像人类那样预先性地思考。最近的研究表明，可以通过探查语言模型的隐藏状态来预测未来的token。科罗拉多大学博尔德分校和康奈尔大学的研究者发布了一篇论文，观察到在训练期间的梯度会为当前token位置的损失优化权重，也会为序列后面的token进行优化。他们提出了预缓存假设和面包屑假设，通过实验发现Transformer在某些情况下会学习预缓存。然而，在真实语言数据上，语言模型并不会显著准备未来的信息，而是计算对预测下一个token有用的特征。因此，Transformer是否能深谋远虑似乎是一个数据问题，未来可能通过合适的数据整理方法让语言模型具备人类一样预先思考的能力。

原文和模型

【原文链接】 阅读原文 [ 1276字 | 6分钟 ]
【原文作者】 机器之心
【摘要模型】 gpt-3.5-turbo-0125
【摘要评分】 ★☆☆☆☆

OpenAI ChatGPT

ChatGPT是OpenAI公司开发的一种大型语言模型。它是一种基于Transformer架构的深度学习模型，可以对语言进行建模和生成。它可以处理问答、对话生成、文本生成等多种任务。

# AIGC动态 # 大模型 # 数据整理 # 深谋远虑 # 语言模型 # 隐藏状态 # 预测

© 版权声明

文章版权归作者所有，未经允许请勿转载。

“绘蛙”

相关文章

GPT-4o不会数r，被外国小哥原地逼疯！谷歌论文揭秘Transformer「数不到n」

新智元

2,589

通用图大模型HiGPT：一己之力建模任何图结构关系！来自港大数据智能实验室&百度

量子位

2,183

大模型权威测试被曝翻车！更偏袒GPT-4等闭源模型，连提示词都区别对待

量子位

2,508

印度国家级大模型上线两天仅 300 余次下载，投资人直呼“尴尬”：韩国大学生模型都有20万！

AI前线

1,333

苹果AI终于来了！从2.7到30亿四款大模型代码全开源，AI技术持续“狂飙”｜钛媒体AGI

钛媒体AGI

2,241

李飞飞团队统一动作与语言，新的多模态模型不仅超懂指令，还能读懂隐含情绪

机器之心

1,577

“极客训练营”

暂无评论

暂无评论...