标签:Transformer

Meta无限长文本大模型来了:参数仅7B,已开源

Meta近日提出了一种名为MEGALODON的新型神经架构,用于高效地处理无限长的文本序列。这一技术的提出是为了解决传统Transformer模型在处理长序列时存在的二次...

谷歌爆改Transformer,“无限注意力”让1B小模型读完10部小说,114倍信息压缩

这篇文章介绍了谷歌最新提出的Infini-attention机制,该机制能够使Transformer架构的大模型在有限的计算资源下处理无限长的输入,并实现114倍的内存压缩比。I...

图文详解Transformer为什么如此强大

Transformer模型自问世以来,已经在自然语言处理(NLP)领域取得了革命性的进展,并且其影响力已经扩展到了NLP之外的其他领域。Transformer的核心特点在于其...

「有效上下文」提升20倍!DeepMind发布ReadAgent框架

ReadAgent的设计灵感来源于人类的交互式阅读方式,它通过一个简单的提示系统实现,利用LLMs的高级语言功能。这个系统包括三个主要部分:决定哪些内容存储在记...

CVPR 2024满分论文|英伟达开源大模型FoundationPose称霸BOP排行榜

FoundationPose模型是一个用于6D物体姿态估计和跟踪的统一大模型,它能够在基于模型和无模型的设置中对新颖物体进行姿态估计和跟踪。该模型通过使用RGBD图像...

李飞飞主讲,斯坦福2024 CS231n开课,依旧座无虚席

李飞飞教授的计算机视觉课程CS231n在斯坦福大学再次开课,迎来了第九个年头。这门课程自2015年以来已成为计算机视觉专业学生的必修课,并见证了人工智能和计...

华为诺亚频域LLM「帝江」:仅需1/50训练成本,7B模型媲美LLaMA,推理加速5倍

机器之心专栏近期介绍了一种基于频域的大语言模型架构——帝江,这一架构旨在解决现有大型Transformer模型在推理成本和训练成本上的问题。帝江模型通过频域自注...

图解Transformer多头注意力机制

本文是关于Transformer架构中多头注意力机制的深入解析。多头注意力是Transformer模型的核心组成部分,它使得模型能够从多个角度理解数据,提升了信息处理的...

Mamba超强进化体一举颠覆Transformer!单张A100跑140K上下文

AI21 Labs最近开源了Jamba,这是世界上第一个生产级的Mamba大模型,它在多项基准测试中表现出色,与目前最强的几个开源Transformer模型相媲美。Jamba是基于全...

谁将替代 Transformer?

本文主要探讨了非Transformer架构在人工智能领域的发展和挑战。Transformer架构由于其处理局部和长程依赖关系的能力以及可并行化训练的特点,已经成为了自然...
1 2 3 4 5