Transformer | 第 2 页

【 ICLR 2025 】Adam 有了 mini 版：内存减半，吞吐量可提升 50%

在大语言模型训练中，内存开销是一个关键挑战，尤其是Adam优化器的高内存需求。为了解决这一问题，研究团队提出了一种轻量化优化器Adam-mini，通过分析Transf...

AIGC动态

4个月前

无需Attention的未来，RWKV-7能成为替代Transformer的那只黑天鹅吗？

尽管Transformer在自然语言处理和其他领域广泛应用，但其在处理长序列时存在显著局限性。对于百万级别的上下文窗口，Transformer的性能会显著下降，限制了其...

AIGC动态

5个月前

腾讯混元、英伟达都发混合架构模型，Mamba-Transformer要崛起吗？

近年来，Transformer架构在自然语言处理领域取得了显著成就，但其计算复杂度和内存占用问题逐渐成为瓶颈。与此同时，Mamba作为一种新兴的状态空间模型（SSM）...

AIGC动态

5个月前

「注意力实际上是对数的」？七年前的Transformer还有新发现，Karpathy点赞

在当前的AI社区中，注意力机制的计算复杂度问题再次引发了广泛讨论。作者提出了一种全新的视角，认为Transformer中的注意力机制在计算复杂度上应被视为对数级...

AIGC动态

5个月前

驯服AI，更懂物理！何恺明团队提出全新DHN「去噪哈密顿网络」

何恺明团队提出的去噪哈密顿网络（DHN）将哈密顿力学融入神经网络，突破了传统局部时间步的限制，并通过独特的去噪机制在物理推理任务中表现出色。传统机器学...

AIGC动态

5个月前

图解 DeepSeek-R1

DeepSeek-R1 是人工智能领域的一个重要进展，特别是在机器学习研发社区中引起了广泛关注。该模型的核心特点在于其开放权重设计以及借鉴了 OpenAI O1 推理模型...

AIGC动态

6个月前

不要自回归！扩散模型作者创业，首个商业级扩散LLM来了，编程秒出结果

Inception Labs推出了首个商业级扩散大型语言模型Mercury，标志着Transformer与扩散模型的融合进入实际应用阶段。该模型在英伟达H100上实现每秒超过1000个tok...

AIGC动态

6个月前

AAAI 2025丨2080Ti 也能 4K 图像抠图！美图&北交大提出超高分辨率自然图像抠图算法 MEMatte

美图影像研究院（MT Lab）与北京交通大学联合提出了一种名为MEMatte的显存友好型自然图像抠图框架，旨在解决显存受限环境下的高清图像精细抠图问题。该研究针...

AIGC动态

7个月前

谷歌新架构一战成名，打破Transformer记忆瓶颈，姚班校友钟沛林新作

谷歌的“Titan”架构作为一种新的深度学习模型，旨在挑战现有的Transformer架构。该架构的核心是一个神经长期记忆模块（LMM），它能够记住长期信息，并有效地扩...

AIGC动态

7个月前

腾讯版Sora开源！最强开源视频模型，130亿参数、物理模拟、电影级画质！

腾讯开源了名为HunyuanVideo（混元）的视频模型，这是一个拥有130亿参数的类Sora文生视频模型，是目前参数最大的开源视频模型。混元具备物理模拟、一镜到底、...

AIGC动态

9个月前

标签：Transformer

【 ICLR 2025 】Adam 有了 mini 版：内存减半，吞吐量可提升 50%

无需Attention的未来，RWKV-7能成为替代Transformer的那只黑天鹅吗？

腾讯混元、英伟达都发混合架构模型，Mamba-Transformer要崛起吗？

「注意力实际上是对数的」？七年前的Transformer还有新发现，Karpathy点赞

驯服AI，更懂物理！何恺明团队提出全新DHN「去噪哈密顿网络」

图解 DeepSeek-R1

不要自回归！扩散模型作者创业，首个商业级扩散LLM来了，编程秒出结果

AAAI 2025丨2080Ti 也能 4K 图像抠图！美图&北交大提出超高分辨率自然图像抠图算法 MEMatte

谷歌新架构一战成名，打破Transformer记忆瓶颈，姚班校友钟沛林新作

腾讯版Sora开源！最强开源视频模型，130亿参数、物理模拟、电影级画质！

热门网址

标签：Transformer

Trae-AI IDE

极客训练营-扫码领取免费材料

讯飞文书-办公助手

有言AI-视频创作

热门网址