标签:Transformer
华为诺亚频域LLM「帝江」:仅需1/50训练成本,7B模型媲美LLaMA,推理加速5倍
机器之心专栏近期介绍了一种基于频域的大语言模型架构——帝江,这一架构旨在解决现有大型Transformer模型在推理成本和训练成本上的问题。帝江模型通过频域自注...
图解Transformer多头注意力机制
本文是关于Transformer架构中多头注意力机制的深入解析。多头注意力是Transformer模型的核心组成部分,它使得模型能够从多个角度理解数据,提升了信息处理的...
Mamba超强进化体一举颠覆Transformer!单张A100跑140K上下文
AI21 Labs最近开源了Jamba,这是世界上第一个生产级的Mamba大模型,它在多项基准测试中表现出色,与目前最强的几个开源Transformer模型相媲美。Jamba是基于全...
谁将替代 Transformer?
本文主要探讨了非Transformer架构在人工智能领域的发展和挑战。Transformer架构由于其处理局部和长程依赖关系的能力以及可并行化训练的特点,已经成为了自然...
图解Transformer工作原理
本文是关于 Transformer 的系列文章的第二篇,主要深入探讨了 Transformer 的内部工作机制。Transformer 的架构主要由编码器(Encoder)和解码器(Decoder)...
清华微软开源全新提示词压缩工具,长度骤降80%!GitHub怒砍3.1K星
清华大学和微软的研究人员提出了一种名为LLMLingua-2的新型文本压缩方法,该方法能够在保证输出质量不变的情况下,将提示词压缩至原始长度的20%。与现有基于...
OpenAI公关跳起来捂他嘴:Transformer作者公开承认参与Q*!|八位作者最新专访
本文讲述了Transformer架构的发展历程,这是一项对AI领域产生重大影响的技术。Transformer的发明者之一,Lukasz Kaiser,公开承认参与了OpenAI的Q*项目,但关...
图解Transformer架构设计
近年来,Transformer技术在自然语言处理(NLP)领域引起了巨大关注。Transformer是一种新型架构,利用注意力机制显著提升深度学习NLP翻译模型性能。自从在论...
现场围观 | 黄仁勋对话Transformer论文作者:世界该给Tranformer翻篇了
在英伟达GTC大会上,英伟达CEO黄仁勋与七位Transformer模型的发明人进行了一场主题为「Transforming AI」的小组讨论。这七位发明人都是谷歌的前研究人员,他...
黄仁勋对话Transformer七子:人类正见证“AI工厂”的诞生|钛媒体AGI
在英伟达GTC大会上,英伟达CEO黄仁勋主持了一场圆桌论坛,邀请了七位Transformer论文《Attention is All You Need》的作者们。 黄仁勋表示,在过去的六十年...