标签:Transformer

无需Attention的未来,RWKV-7能成为替代Transformer的那只黑天鹅吗?

尽管Transformer在自然语言处理和其他领域广泛应用,但其在处理长序列时存在显著局限性。对于百万级别的上下文窗口,Transformer的性能会显著下降,限制了其...

腾讯混元、英伟达都发混合架构模型,Mamba-Transformer要崛起吗?

近年来,Transformer架构在自然语言处理领域取得了显著成就,但其计算复杂度和内存占用问题逐渐成为瓶颈。与此同时,Mamba作为一种新兴的状态空间模型(SSM)...

「注意力实际上是对数的」?七年前的Transformer还有新发现,Karpathy点赞

在当前的AI社区中,注意力机制的计算复杂度问题再次引发了广泛讨论。作者提出了一种全新的视角,认为Transformer中的注意力机制在计算复杂度上应被视为对数级...

驯服AI,更懂物理!何恺明团队提出全新DHN「去噪哈密顿网络」

何恺明团队提出的去噪哈密顿网络(DHN)将哈密顿力学融入神经网络,突破了传统局部时间步的限制,并通过独特的去噪机制在物理推理任务中表现出色。传统机器学...

图解 DeepSeek-R1

DeepSeek-R1 是人工智能领域的一个重要进展,特别是在机器学习研发社区中引起了广泛关注。该模型的核心特点在于其开放权重设计以及借鉴了 OpenAI O1 推理模型...

不要自回归!扩散模型作者创业,首个商业级扩散LLM来了,编程秒出结果

Inception Labs推出了首个商业级扩散大型语言模型Mercury,标志着Transformer与扩散模型的融合进入实际应用阶段。该模型在英伟达H100上实现每秒超过1000个tok...

AAAI 2025丨2080Ti 也能 4K 图像抠图 !美图&北交大提出超高分辨率自然图像抠图算法 MEMatte

美图影像研究院(MT Lab)与北京交通大学联合提出了一种名为MEMatte的显存友好型自然图像抠图框架,旨在解决显存受限环境下的高清图像精细抠图问题。该研究针...

谷歌新架构一战成名,打破Transformer记忆瓶颈,姚班校友钟沛林新作

谷歌的“Titan”架构作为一种新的深度学习模型,旨在挑战现有的Transformer架构。该架构的核心是一个神经长期记忆模块(LMM),它能够记住长期信息,并有效地扩...

腾讯版Sora开源!最强开源视频模型,130亿参数、物理模拟、电影级画质!

腾讯开源了名为HunyuanVideo(混元)的视频模型,这是一个拥有130亿参数的类Sora文生视频模型,是目前参数最大的开源视频模型。混元具备物理模拟、一镜到底、...

视频大模型无损提速:删除多余token,训练时间减少30%,帧率越高效果越好 | NeurIPS

卡内基梅隆大学提出了一种名为Run-Length Tokenization(RLT)的视频大模型加速方法,该方法通过合并视频中连续相同的图像块为一个token,显著提升了Transfor...
1 2 3 8