标签:Transformer
6700万参数比肩万亿巨兽GPT-4!微软MIT等联手破解Transformer推理密码
由微软和MIT等机构的研究人员提出的新训练范式,通过因果模型构建数据集,成功地提升了模型的推理能力。该研究团队训练了一个仅有67M参数的微型Transformer模...
谷歌推出通用视频模型:能精准分类、定位、检索等
谷歌的研究人员开发了一种名为VideoPrism的通用视频模型,该模型在视频领域的多种任务上展现出了卓越的性能。为了验证VideoPrism的性能,研究人员在33个视频...
谷歌推出全新模型,将Transformer与NAR相结合
在AIGC领域,Transformer架构的引入极大地推动了大模型的技术创新,催生了ChatGPT、Coplit、讯飞星火、文心一言等生成式AI产品。尽管Transformer在自然语言理...
Meta开源多token预测,提升大模型推理效率
AIGC开放社区关注了微软、OpenAI、百度文心一言、讯飞星火等大语言模型(LLM)的发展和应用落地,专注于AIGC领域的市场研究和开发者生态。传统的大模型预训练...
哈佛辍学生搞AI芯片公司:融资1.2亿美元,面向一个模型
AI芯片初创公司Etched近期宣布已筹集1.2亿美元资金,挑战Nvidia在AI芯片设计领域的领导地位。Etched正在研发一款名为Sohu的新芯片,专注于处理AI中的Transfor...
麻省理工提出“跨层注意力”,极大优化Transformer缓存
在人工智能生成内容(AIGC)领域,Transformer架构因其在大语言模型(LLM)中的关键作用而备受关注。然而,随着模型参数的指数级增长,传统的Transformer架构...
谷歌推出基于Transformer的创新技术——无限注意力
随着生成式AI产品如ChatGPT和Sora等的流行,Transformer架构已成为处理文本、图像、视频和音频等数据的大型语言模型(LLM)的基础。谷歌提出了一种名为Infini...
AI研究的主要推动力会是什么?ChatGPT团队研究科学家:算力成本下降
OpenAI研究科学家Hyung Won Chung在斯坦福大学的演讲中探讨了AI研究的主要推动力,并通过Transformer的发展来阐释这一推动力。Chung认为,AI研究的核心推动力...
拯救Transformer推理能力!DeepMind新研究TransNAR:给模型嵌入「算法推理大脑」
DeepMind最近提出了一种结合Transformer和神经算法推理器(NAR)的混合架构方法,以解决Transformer模型在算法推理任务上的缺陷。这种新的架构被称为TransNAR...
再战Transformer!原作者带队的Mamba 2来了,新架构训练效率大幅提升
自2017年提出以来,Transformer架构在AI大模型领域占据了主导地位,尤其是在语言建模方面。然而,随着模型规模的扩大和序列长度的增加,其局限性也逐渐凸显,...