标签:Transformer
基于能量的Transformer横空出世!全面超越主流模型35%
弗吉尼亚大学团队提出了一种名为EBT(Energy-Based Transformers)的新架构,通过基于能量的机制,首次在跨模态以及数据、参数、计算量和模型深度等多个维度...
新范式来了!新能量模型打破Transformer++扩展上限,训练扩展率快35%
人类思维通常分为系统1(快速思维)和系统2(慢速思维),后者在处理复杂任务时尤为重要。然而,当前的大语言模型在系统2思维任务上表现不足,尤其是在需要多...
田渊栋:连续思维链效率更高,可同时编码多个路径,“叠加态”式并行搜索
田渊栋团队的最新研究揭示了AI模型在处理复杂任务时,通过连续思维链的并行搜索机制,能够显著提升推理效率。传统的大语言模型(LLM)通常采用离散思维链进行...
微软等提出「模型链」新范式,与Transformer性能相当,扩展性灵活性更好
随着大语言模型(LLM)的快速发展,扩展Transformer架构已成为推动人工智能领域进步的关键途径。然而,LLM参数规模的指数级增长带来了高昂的训练成本和推理效...
被Transformer光芒掩盖的论文,Meta科学家回顾十年前创新之作
2015年发布的论文《End-To-End Memory Networks》虽然在当时被Transformer的光芒所掩盖,但它包含了当前大型语言模型的许多关键要素。这篇论文首次完全用注意...
OpenAI、谷歌等一线大模型科学家公开课,斯坦福CS 25春季上新!
斯坦福大学的CS25课程专注于Transformer架构,吸引了众多AI领域的顶尖研究者参与。这门课程的最新版本「CS25: Transformers United V5」邀请了Google DeepMin...
AI版本宝可梦冲榜上全球前10%!一次性「吃掉」10年47.5万场人类对战数据
德州大学奥斯汀分校的研究团队通过结合Transformer和离线强化学习技术,成功训练出一个能够在宝可梦对战中表现出色的AI智能体。该智能体完全依赖于人类历史对...
Jeff Dean演讲回顾LLM发展史,Transformer、蒸馏、MoE、思维链等技术都来自谷歌
在苏黎世联邦理工学院的信息学研讨会上,谷歌首席科学家 Jeff Dean 发表了一场关于 AI 发展趋势的演讲,回顾了 AI 近十五年的发展历程,并展望了未来的可能性...
谷歌提出Transformer架构中,表示崩塌、过度压缩的5个解决方法
Transformer架构的出现极大地推动了生成式AI的发展,催生了诸如ChatGPT、Copilot、讯飞星火、文心一言和Midjourney等知名产品。然而,尽管Transformer架构在...
【 ICLR 2025 】Adam 有了 mini 版:内存减半,吞吐量可提升 50%
在大语言模型训练中,内存开销是一个关键挑战,尤其是Adam优化器的高内存需求。为了解决这一问题,研究团队提出了一种轻量化优化器Adam-mini,通过分析Transf...