标签:Transformer
AI版本宝可梦冲榜上全球前10%!一次性「吃掉」10年47.5万场人类对战数据
德州大学奥斯汀分校的研究团队通过结合Transformer和离线强化学习技术,成功训练出一个能够在宝可梦对战中表现出色的AI智能体。该智能体完全依赖于人类历史对...
Jeff Dean演讲回顾LLM发展史,Transformer、蒸馏、MoE、思维链等技术都来自谷歌
在苏黎世联邦理工学院的信息学研讨会上,谷歌首席科学家 Jeff Dean 发表了一场关于 AI 发展趋势的演讲,回顾了 AI 近十五年的发展历程,并展望了未来的可能性...
谷歌提出Transformer架构中,表示崩塌、过度压缩的5个解决方法
Transformer架构的出现极大地推动了生成式AI的发展,催生了诸如ChatGPT、Copilot、讯飞星火、文心一言和Midjourney等知名产品。然而,尽管Transformer架构在...
【 ICLR 2025 】Adam 有了 mini 版:内存减半,吞吐量可提升 50%
在大语言模型训练中,内存开销是一个关键挑战,尤其是Adam优化器的高内存需求。为了解决这一问题,研究团队提出了一种轻量化优化器Adam-mini,通过分析Transf...
无需Attention的未来,RWKV-7能成为替代Transformer的那只黑天鹅吗?
尽管Transformer在自然语言处理和其他领域广泛应用,但其在处理长序列时存在显著局限性。对于百万级别的上下文窗口,Transformer的性能会显著下降,限制了其...
腾讯混元、英伟达都发混合架构模型,Mamba-Transformer要崛起吗?
近年来,Transformer架构在自然语言处理领域取得了显著成就,但其计算复杂度和内存占用问题逐渐成为瓶颈。与此同时,Mamba作为一种新兴的状态空间模型(SSM)...
「注意力实际上是对数的」?七年前的Transformer还有新发现,Karpathy点赞
在当前的AI社区中,注意力机制的计算复杂度问题再次引发了广泛讨论。作者提出了一种全新的视角,认为Transformer中的注意力机制在计算复杂度上应被视为对数级...
驯服AI,更懂物理!何恺明团队提出全新DHN「去噪哈密顿网络」
何恺明团队提出的去噪哈密顿网络(DHN)将哈密顿力学融入神经网络,突破了传统局部时间步的限制,并通过独特的去噪机制在物理推理任务中表现出色。传统机器学...
图解 DeepSeek-R1
DeepSeek-R1 是人工智能领域的一个重要进展,特别是在机器学习研发社区中引起了广泛关注。该模型的核心特点在于其开放权重设计以及借鉴了 OpenAI O1 推理模型...
不要自回归!扩散模型作者创业,首个商业级扩散LLM来了,编程秒出结果
Inception Labs推出了首个商业级扩散大型语言模型Mercury,标志着Transformer与扩散模型的融合进入实际应用阶段。该模型在英伟达H100上实现每秒超过1000个tok...