标签:Transformer

图解Transformer工作原理

本文是关于 Transformer 的系列文章的第二篇,主要深入探讨了 Transformer 的内部工作机制。Transformer 的架构主要由编码器(Encoder)和解码器(Decoder)...

清华微软开源全新提示词压缩工具,长度骤降80%!GitHub怒砍3.1K星

清华大学和微软的研究人员提出了一种名为LLMLingua-2的新型文本压缩方法,该方法能够在保证输出质量不变的情况下,将提示词压缩至原始长度的20%。与现有基于...

OpenAI公关跳起来捂他嘴:Transformer作者公开承认参与Q*!|八位作者最新专访

本文讲述了Transformer架构的发展历程,这是一项对AI领域产生重大影响的技术。Transformer的发明者之一,Lukasz Kaiser,公开承认参与了OpenAI的Q*项目,但关...

图解Transformer架构设计

近年来,Transformer技术在自然语言处理(NLP)领域引起了巨大关注。Transformer是一种新型架构,利用注意力机制显著提升深度学习NLP翻译模型性能。自从在论...

现场围观 | 黄仁勋对话Transformer论文作者:世界该给Tranformer翻篇了

在英伟达GTC大会上,英伟达CEO黄仁勋与七位Transformer模型的发明人进行了一场主题为「Transforming AI」的小组讨论。这七位发明人都是谷歌的前研究人员,他...

黄仁勋对话Transformer七子:人类正见证“AI工厂”的诞生|钛媒体AGI

在英伟达GTC大会上,英伟达CEO黄仁勋主持了一场圆桌论坛,邀请了七位Transformer论文《Attention is All You Need》的作者们。 黄仁勋表示,在过去的六十年...

Transformer七子重聚GTC,老黄亲自赠送签名版DGX-1!7年奠基之作背后佚事揭秘

在GTC大会上,老黄与Transformer的七位作者进行了一场深度访谈。他们认为现在急需一个能够替代Transformer的架构出现。Transformer的八位作者中,只有Niki Pa...

仅需200M参数,零样本性能超越有监督!谷歌发布时序预测基础模型TimesFM

新智元报道了Google Research的研究人员提出了一个时序预测基础模型TimesFM,该模型针对时序数据设计,输出序列长于输入序列。TimesFM在1000亿时间点数据上进...

深入理解Sora技术原理|得物技术

视频生成时,获取随机噪声视频,通过训练的视频压缩网络,将噪声视频压缩成低维度的潜在空间数据,以便更好的处理视频数据。将压缩后的潜在空间数据分解成空...

颜水成/程明明新作!Sora核心组件DiT训练提速10倍,Masked Diffusion Transformer V2开源

该文章介绍了一项名为Masked Diffusion Transformer V2的新技术,该技术在ImageNet基准测试中取得了1.58的FID分数,刷新了最新的SOTA。这项技术通过引入mask ...
1 2 3 4 5