“Mamba模型”的搜索结果

再战Transformer!原作者带队的Mamba 2来了,新架构训练效率大幅提升
自2017年提出以来,Transformer架构在AI大模型领域占据了主导地位,尤其是在语言建模方面。然而,随着模型规模的扩大和序列长度的增加,...
华为诺亚频域LLM「帝江」:仅需1/50训练成本,7B模型媲美LLaMA,推理加速5倍
机器之心专栏近期介绍了一种基于频域的大语言模型架构——帝江,这一架构旨在解决现有大型Transformer模型在推理成本和训练成本上的问题。...
Mamba超强进化体一举颠覆Transformer!单张A100跑140K上下文
AI21 Labs最近开源了Jamba,这是世界上第一个生产级的Mamba大模型,它在多项基准测试中表现出色,与目前最强的几个开源Transformer模型...
CNN、Transformer、Uniformer之外,我们终于有了更高效的视频理解技术
视频理解技术旨在准确把握视频中的时空信息,但面临着短视频片段的时空冗余和复杂时空依赖关系的双重挑战。传统的三维卷积神经网络(CNN...