标签：注意力

基于闪电注意力机制，创新高效开源大模型

MiniMax公司开源了基于闪电注意力机制的专家混合模型MiniMax-M1，该模型在架构、创新模块和训练框架上均实现了显著突破。MiniMax-M1总参数为4560亿，其中459...

AIGC动态

2个月前

Mamba核心作者新作：取代DeepSeek在用的注意力机制，专为推理打造

研究团队提出两种专为推理“量身定制”的注意力机制——Grouped-Tied Attention（GTA）和Grouped Latent Attention（GLA），旨在优化大语言模型的推理效率和硬件...

AIGC动态

4个月前

「注意力实际上是对数的」？七年前的Transformer还有新发现，Karpathy点赞

在当前的AI社区中，注意力机制的计算复杂度问题再次引发了广泛讨论。作者提出了一种全新的视角，认为Transformer中的注意力机制在计算复杂度上应被视为对数级...

AIGC动态

6个月前