“注意力机制”的搜索结果

Mamba-2新架构出世一统江湖!普林斯顿CMU华人再出神作,性能狂飙8倍
Mamba-2架构在AI界再次引发关注,其在统一状态空间模型(SSM)和注意力机制(Attention)的基础上,成功将Transformer模型与SSM结合,形...
再战Transformer!原作者带队的Mamba 2来了,新架构训练效率大幅提升
自2017年提出以来,Transformer架构在AI大模型领域占据了主导地位,尤其是在语言建模方面。然而,随着模型规模的扩大和序列长度的增加,...
新架构Mamba更新二代!作者:别争了,数学上Transformer和SSM是一回事
研究人员推出了Mamba-2模型,该模型在状态空间模型(SSM)与Transformer架构之间建立了新的联系。通过对两种模型的数学基础进行深入分析...
谷歌创新框架:从非结构化数据,实现多模态学习
在数据爆炸时代,大模型学习非结构化数据如视频、音频和图片面临重大挑战。多模态学习,特别是处理多种输入和异构数据时,深度神经网络...
多模态大模型不够灵活,谷歌DeepMind创新架构Zipper:分开训练再「压缩」
近期研究表明,通过训练纯解码器生成模型,可以成功地生成包括音频、图像和状态-动作序列在内的多种模态的新序列。这些模型通常采用词汇...
马斯克烧60亿美元难题,国内大厂有解?开源MoE模算效率黑马登场,3.7B参数单挑Llama 3-70B
在当前大模型算力需求极高的背景下,浪潮信息推出了一款名为源2.0-M32的混合专家模型。该模型以32个专家的架构,总参数量达到400亿,但...
清华接手,YOLOv10问世:性能大幅提升,登上GitHub热榜
YOLO(You Only Look Once)系列作为实时目标检测领域的主要范式,近日迎来了YOLOv10这一重大升级。该新版本由清华大学的研究团队推出,...
Bengio等人新作:注意力可被视为RNN,新模型媲美Transformer,但超级省内存
在近期的研究中,加拿大皇家银行 AI 研究所 Borealis AI 与蒙特利尔大学的研究者提出了一种新型序列建模方法,该方法旨在解决 Transform...
谷歌推出TransformerFAM架构,以更低的消耗处理长序列文本
在人工智能领域,Transformer架构对大型模型产生了深远影响,被广泛应用于ChatGPT、Sora、Stable Diffusion等知名模型。然而,它在处理...
视频版PS!0样本视频编辑模型,普通人秒变钢铁侠
研究人员推出了一款名为Slicedit的创新视频编辑模型,通过结合文本到图像的扩散模型和视频时空切片的预处理技术,实现了在不改变视频背...
1 2 3 4 5 6 9