“架构”的搜索结果

Mamba-2新架构出世一统江湖!普林斯顿CMU华人再出神作,性能狂飙8倍
Mamba-2架构在AI界再次引发关注,其在统一状态空间模型(SSM)和注意力机制(Attention)的基础上,成功将Transformer模型与SSM结合,形...
再战Transformer!原作者带队的Mamba 2来了,新架构训练效率大幅提升
自2017年提出以来,Transformer架构在AI大模型领域占据了主导地位,尤其是在语言建模方面。然而,随着模型规模的扩大和序列长度的增加,...
新架构Mamba更新二代!作者:别争了,数学上Transformer和SSM是一回事
研究人员推出了Mamba-2模型,该模型在状态空间模型(SSM)与Transformer架构之间建立了新的联系。通过对两种模型的数学基础进行深入分析...
黄仁勋:英伟达下一代Rubin架构AI芯片将于2026年推出,全球AI产业规模或高达100万亿美金|钛媒体AGI
在台北举办的COMPUTEX大会上,英伟达创始人兼CEO黄仁勋发表了两小时的主题演讲。主要观点包括:1. AI和加速计算的重要性:黄仁勋强调了A...
多模态大模型不够灵活,谷歌DeepMind创新架构Zipper:分开训练再「压缩」
近期研究表明,通过训练纯解码器生成模型,可以成功地生成包括音频、图像和状态-动作序列在内的多种模态的新序列。这些模型通常采用词汇...
89岁计算机架构先驱、超算软件之父戈登·贝尔逝世!ACM奖项以他命名
戈登·贝尔,数字时代的建筑师、计算机系统领域的先驱,于5月17日因肺炎去世,享年89岁。贝尔在计算机科学界享有盛誉,他的主要成就包括...
谷歌推出TransformerFAM架构,以更低的消耗处理长序列文本
在人工智能领域,Transformer架构对大型模型产生了深远影响,被广泛应用于ChatGPT、Sora、Stable Diffusion等知名模型。然而,它在处理...
腾讯混元文生图大模型开源:Sora 同架构,更懂中文
腾讯最近开源了其混元文生图大模型,这是一个业内首个中文原生的 DiT(扩散模型与 Transformer)架构的文生图开源模型,具备中英文双语输...
DiT架构大一统:一个框架集成图像、视频、音频和3D生成,可编辑、能试玩
本文报道了基于Diffusion Transformer(DiT)的新模型Flag-DiT,该模型由上海AI Lab、港中文和英伟达的研究者联合推出,旨在通过流(Flo...
全新神经网络架构KAN一夜爆火!200参数顶30万,MIT华人一作,轻松复现Nature封面AI数学研究
一种名为KAN的全新神经网络架构被提出,它与传统的MLP(多层感知机)架构有显著不同,并且在使用更少的参数的情况下,在数学和物理问题...
1 2 3 4 5 98