标签:Transformer

拯救Transformer推理能力!DeepMind新研究TransNAR:给模型嵌入「算法推理大脑」

DeepMind最近提出了一种结合Transformer和神经算法推理器(NAR)的混合架构方法,以解决Transformer模型在算法推理任务上的缺陷。这种新的架构被称为TransNAR...

再战Transformer!原作者带队的Mamba 2来了,新架构训练效率大幅提升

自2017年提出以来,Transformer架构在AI大模型领域占据了主导地位,尤其是在语言建模方面。然而,随着模型规模的扩大和序列长度的增加,其局限性也逐渐凸显,...

谷歌推出TransformerFAM架构,以更低的消耗处理长序列文本

在人工智能领域,Transformer架构对大型模型产生了深远影响,被广泛应用于ChatGPT、Sora、Stable Diffusion等知名模型。然而,它在处理超长文档时,注意力复...

GPT-3水平的Sora 就强大到不敢给普通人用?可我也不知道把它用在哪儿

2023年以来,多模态视频生成技术取得了显著的进展,其中OpenAI旗下视频生成模型Sora在2024年2月发布后迅速成为全球焦点。Sora在视频生成效果和质量上具有明显...

Llama 3细节公布!AI产品总监站台讲解:Llama系列超庞大生态系统

背景介绍:Meta公司在2023年2月组建了一个跨领域的团队,致力于开发Llama系列模型。Llama 2模型于2023年7月发布,参数范围从7B到70B,代表了当时的先进技术。...

国产 Sora 的秘密,藏在这个清华系大模型团队中

在视频AIGC(人工智能生成内容)领域,Sora技术因其在长视频生成方面的突破性进展而备受关注。Sora采用的Diffusion加Transformer架构在生成内容的准确性和灵...

Meta无限长文本大模型来了:参数仅7B,已开源

Meta近日提出了一种名为MEGALODON的新型神经架构,用于高效地处理无限长的文本序列。这一技术的提出是为了解决传统Transformer模型在处理长序列时存在的二次...

谷歌爆改Transformer,“无限注意力”让1B小模型读完10部小说,114倍信息压缩

这篇文章介绍了谷歌最新提出的Infini-attention机制,该机制能够使Transformer架构的大模型在有限的计算资源下处理无限长的输入,并实现114倍的内存压缩比。I...

图文详解Transformer为什么如此强大

Transformer模型自问世以来,已经在自然语言处理(NLP)领域取得了革命性的进展,并且其影响力已经扩展到了NLP之外的其他领域。Transformer的核心特点在于其...

「有效上下文」提升20倍!DeepMind发布ReadAgent框架

ReadAgent的设计灵感来源于人类的交互式阅读方式,它通过一个简单的提示系统实现,利用LLMs的高级语言功能。这个系统包括三个主要部分:决定哪些内容存储在记...
1 2 3 4 5 6 8