Transformer | 第 6 页

再战Transformer！原作者带队的Mamba 2来了，新架构训练效率大幅提升

自2017年提出以来，Transformer架构在AI大模型领域占据了主导地位，尤其是在语言建模方面。然而，随着模型规模的扩大和序列长度的增加，其局限性也逐渐凸显，...

AIGC动态

1年前 (2024)

谷歌推出TransformerFAM架构，以更低的消耗处理长序列文本

在人工智能领域，Transformer架构对大型模型产生了深远影响，被广泛应用于ChatGPT、Sora、Stable Diffusion等知名模型。然而，它在处理超长文档时，注意力复...

AIGC动态

1年前 (2024)

GPT-3水平的Sora 就强大到不敢给普通人用？可我也不知道把它用在哪儿

2023年以来，多模态视频生成技术取得了显著的进展，其中OpenAI旗下视频生成模型Sora在2024年2月发布后迅速成为全球焦点。Sora在视频生成效果和质量上具有明显...

AIGC动态

1年前 (2024)

Llama 3细节公布！AI产品总监站台讲解：Llama系列超庞大生态系统

背景介绍：Meta公司在2023年2月组建了一个跨领域的团队，致力于开发Llama系列模型。Llama 2模型于2023年7月发布，参数范围从7B到70B，代表了当时的先进技术。...

AIGC动态

1年前 (2024)

国产 Sora 的秘密，藏在这个清华系大模型团队中

在视频AIGC（人工智能生成内容）领域，Sora技术因其在长视频生成方面的突破性进展而备受关注。Sora采用的Diffusion加Transformer架构在生成内容的准确性和灵...

AIGC动态

1年前 (2024)

Meta无限长文本大模型来了：参数仅7B，已开源

Meta近日提出了一种名为MEGALODON的新型神经架构，用于高效地处理无限长的文本序列。这一技术的提出是为了解决传统Transformer模型在处理长序列时存在的二次...

AIGC动态

1年前 (2024)

谷歌爆改Transformer，“无限注意力”让1B小模型读完10部小说，114倍信息压缩

这篇文章介绍了谷歌最新提出的Infini-attention机制，该机制能够使Transformer架构的大模型在有限的计算资源下处理无限长的输入，并实现114倍的内存压缩比。I...

AIGC动态

1年前 (2024)

图文详解Transformer为什么如此强大

Transformer模型自问世以来，已经在自然语言处理（NLP）领域取得了革命性的进展，并且其影响力已经扩展到了NLP之外的其他领域。Transformer的核心特点在于其...

AIGC动态

1年前 (2024)

「有效上下文」提升20倍！DeepMind发布ReadAgent框架

ReadAgent的设计灵感来源于人类的交互式阅读方式，它通过一个简单的提示系统实现，利用LLMs的高级语言功能。这个系统包括三个主要部分：决定哪些内容存储在记...

AI-Agent

1年前 (2024)

CVPR 2024满分论文｜英伟达开源大模型FoundationPose称霸BOP排行榜

FoundationPose模型是一个用于6D物体姿态估计和跟踪的统一大模型，它能够在基于模型和无模型的设置中对新颖物体进行姿态估计和跟踪。该模型通过使用RGBD图像...

AIGC动态

1年前 (2024)

标签：Transformer

再战Transformer！原作者带队的Mamba 2来了，新架构训练效率大幅提升

谷歌推出TransformerFAM架构，以更低的消耗处理长序列文本

GPT-3水平的Sora 就强大到不敢给普通人用？可我也不知道把它用在哪儿

Llama 3细节公布！AI产品总监站台讲解：Llama系列超庞大生态系统

国产 Sora 的秘密，藏在这个清华系大模型团队中

Meta无限长文本大模型来了：参数仅7B，已开源

谷歌爆改Transformer，“无限注意力”让1B小模型读完10部小说，114倍信息压缩

图文详解Transformer为什么如此强大

「有效上下文」提升20倍！DeepMind发布ReadAgent框架

CVPR 2024满分论文｜英伟达开源大模型FoundationPose称霸BOP排行榜

热门网址

标签：Transformer

Trae-AI IDE

极客训练营-扫码领取免费材料

讯飞文书-办公助手

有言AI-视频创作

热门网址