标签:Transformer
CVPR 2024满分论文|英伟达开源大模型FoundationPose称霸BOP排行榜
FoundationPose模型是一个用于6D物体姿态估计和跟踪的统一大模型,它能够在基于模型和无模型的设置中对新颖物体进行姿态估计和跟踪。该模型通过使用RGBD图像...
李飞飞主讲,斯坦福2024 CS231n开课,依旧座无虚席
李飞飞教授的计算机视觉课程CS231n在斯坦福大学再次开课,迎来了第九个年头。这门课程自2015年以来已成为计算机视觉专业学生的必修课,并见证了人工智能和计...
华为诺亚频域LLM「帝江」:仅需1/50训练成本,7B模型媲美LLaMA,推理加速5倍
机器之心专栏近期介绍了一种基于频域的大语言模型架构——帝江,这一架构旨在解决现有大型Transformer模型在推理成本和训练成本上的问题。帝江模型通过频域自注...
图解Transformer多头注意力机制
本文是关于Transformer架构中多头注意力机制的深入解析。多头注意力是Transformer模型的核心组成部分,它使得模型能够从多个角度理解数据,提升了信息处理的...
Mamba超强进化体一举颠覆Transformer!单张A100跑140K上下文
AI21 Labs最近开源了Jamba,这是世界上第一个生产级的Mamba大模型,它在多项基准测试中表现出色,与目前最强的几个开源Transformer模型相媲美。Jamba是基于全...
谁将替代 Transformer?
本文主要探讨了非Transformer架构在人工智能领域的发展和挑战。Transformer架构由于其处理局部和长程依赖关系的能力以及可并行化训练的特点,已经成为了自然...
图解Transformer工作原理
本文是关于 Transformer 的系列文章的第二篇,主要深入探讨了 Transformer 的内部工作机制。Transformer 的架构主要由编码器(Encoder)和解码器(Decoder)...
清华微软开源全新提示词压缩工具,长度骤降80%!GitHub怒砍3.1K星
清华大学和微软的研究人员提出了一种名为LLMLingua-2的新型文本压缩方法,该方法能够在保证输出质量不变的情况下,将提示词压缩至原始长度的20%。与现有基于...
OpenAI公关跳起来捂他嘴:Transformer作者公开承认参与Q*!|八位作者最新专访
本文讲述了Transformer架构的发展历程,这是一项对AI领域产生重大影响的技术。Transformer的发明者之一,Lukasz Kaiser,公开承认参与了OpenAI的Q*项目,但关...
图解Transformer架构设计
近年来,Transformer技术在自然语言处理(NLP)领域引起了巨大关注。Transformer是一种新型架构,利用注意力机制显著提升深度学习NLP翻译模型性能。自从在论...