Transformer | 学习AIGC

Transformer终结者！谷歌DeepMind全新MoR架构问世，新一代魔王来了

KAIST、Mila和谷歌DeepMind团队近期发布了一种名为Mixture-of-Recursions（MoR）的全新大型语言模型（LLM）架构，该架构被认为有潜力成为Transformer的替代者...

AIGC动态

2个月前

基于能量的Transformer横空出世！全面超越主流模型35%

弗吉尼亚大学团队提出了一种名为EBT（Energy-Based Transformers）的新架构，通过基于能量的机制，首次在跨模态以及数据、参数、计算量和模型深度等多个维度...

AIGC动态

2个月前

新范式来了！新能量模型打破Transformer++扩展上限，训练扩展率快35%

人类思维通常分为系统1（快速思维）和系统2（慢速思维），后者在处理复杂任务时尤为重要。然而，当前的大语言模型在系统2思维任务上表现不足，尤其是在需要多...

AIGC动态

2个月前

田渊栋：连续思维链效率更高，可同时编码多个路径，“叠加态”式并行搜索

田渊栋团队的最新研究揭示了AI模型在处理复杂任务时，通过连续思维链的并行搜索机制，能够显著提升推理效率。传统的大语言模型（LLM）通常采用离散思维链进行...

AIGC动态

3个月前

微软等提出「模型链」新范式，与Transformer性能相当，扩展性灵活性更好

随着大语言模型（LLM）的快速发展，扩展Transformer架构已成为推动人工智能领域进步的关键途径。然而，LLM参数规模的指数级增长带来了高昂的训练成本和推理效...

AIGC动态

3个月前

被Transformer光芒掩盖的论文，Meta科学家回顾十年前创新之作

2015年发布的论文《End-To-End Memory Networks》虽然在当时被Transformer的光芒所掩盖，但它包含了当前大型语言模型的许多关键要素。这篇论文首次完全用注意...

AIGC动态

4个月前

OpenAI、谷歌等一线大模型科学家公开课，斯坦福CS 25春季上新！

斯坦福大学的CS25课程专注于Transformer架构，吸引了众多AI领域的顶尖研究者参与。这门课程的最新版本「CS25: Transformers United V5」邀请了Google DeepMin...

AIGC动态

5个月前

AI版本宝可梦冲榜上全球前10%！一次性「吃掉」10年47.5万场人类对战数据

德州大学奥斯汀分校的研究团队通过结合Transformer和离线强化学习技术，成功训练出一个能够在宝可梦对战中表现出色的AI智能体。该智能体完全依赖于人类历史对...

AIGC动态

5个月前

Jeff Dean演讲回顾LLM发展史，Transformer、蒸馏、MoE、思维链等技术都来自谷歌

在苏黎世联邦理工学院的信息学研讨会上，谷歌首席科学家 Jeff Dean 发表了一场关于 AI 发展趋势的演讲，回顾了 AI 近十五年的发展历程，并展望了未来的可能性...

AIGC动态

5个月前

谷歌提出Transformer架构中，表示崩塌、过度压缩的5个解决方法

Transformer架构的出现极大地推动了生成式AI的发展，催生了诸如ChatGPT、Copilot、讯飞星火、文心一言和Midjourney等知名产品。然而，尽管Transformer架构在...

AIGC动态

5个月前

标签：Transformer

Transformer终结者！谷歌DeepMind全新MoR架构问世，新一代魔王来了

基于能量的Transformer横空出世！全面超越主流模型35%

新范式来了！新能量模型打破Transformer++扩展上限，训练扩展率快35%

田渊栋：连续思维链效率更高，可同时编码多个路径，“叠加态”式并行搜索

微软等提出「模型链」新范式，与Transformer性能相当，扩展性灵活性更好

被Transformer光芒掩盖的论文，Meta科学家回顾十年前创新之作

OpenAI、谷歌等一线大模型科学家公开课，斯坦福CS 25春季上新！

AI版本宝可梦冲榜上全球前10%！一次性「吃掉」10年47.5万场人类对战数据

Jeff Dean演讲回顾LLM发展史，Transformer、蒸馏、MoE、思维链等技术都来自谷歌

谷歌提出Transformer架构中，表示崩塌、过度压缩的5个解决方法

热门网址

标签：Transformer

Trae-AI IDE

极客训练营-扫码领取免费材料

讯飞文书-办公助手

有言AI-视频创作

热门网址