“隐藏状态”的搜索结果

一项新的架构TTT（Test-Time Training）向现有的Transformer模型发起了挑战，提出了一种在测试时也能学习的模型，旨在从根本上改变语言...

AIGC动态

2个月前

AIGC领域的专业社区专注于微软、OpenAI、百度文心一言、讯飞星火等大型语言模型（LLM）的发展和应用落地，致力于LLM的市场研究和AIGC开...

AIGC动态

3周前

斯坦福大学、加州大学圣地亚哥分校、加州大学伯克利分校和Meta的研究人员提出了一种名为测试时间训练层（Test-Time-Training layers，TT...

AIGC动态

2个月前

这篇报道探讨了语言模型是否会规划未来token的问题。研究发现，虽然Transformer有能力预测未来token，但在实践中并不会这样做。人类在使...

AIGC动态

5个月前

华为诺亚方舟实验室的研究者们提出了一种名为DenseSSM的新方法，用于改进状态空间模型（SSM）中的隐藏信息流动。DenseSSM通过在不同层之...

AIGC动态

6个月前

图神经网络（GNN）是一种强大的技术，用于处理图形数据，能够利用图的连接性和节点与边上的输入特征。GNN可以应用于整个图、单个节点或...

AIGC动态

7个月前