标签:Transformer
无需Attention的未来,RWKV-7能成为替代Transformer的那只黑天鹅吗?
尽管Transformer在自然语言处理和其他领域广泛应用,但其在处理长序列时存在显著局限性。对于百万级别的上下文窗口,Transformer的性能会显著下降,限制了其...
腾讯混元、英伟达都发混合架构模型,Mamba-Transformer要崛起吗?
近年来,Transformer架构在自然语言处理领域取得了显著成就,但其计算复杂度和内存占用问题逐渐成为瓶颈。与此同时,Mamba作为一种新兴的状态空间模型(SSM)...
「注意力实际上是对数的」?七年前的Transformer还有新发现,Karpathy点赞
在当前的AI社区中,注意力机制的计算复杂度问题再次引发了广泛讨论。作者提出了一种全新的视角,认为Transformer中的注意力机制在计算复杂度上应被视为对数级...
驯服AI,更懂物理!何恺明团队提出全新DHN「去噪哈密顿网络」
何恺明团队提出的去噪哈密顿网络(DHN)将哈密顿力学融入神经网络,突破了传统局部时间步的限制,并通过独特的去噪机制在物理推理任务中表现出色。传统机器学...
图解 DeepSeek-R1
DeepSeek-R1 是人工智能领域的一个重要进展,特别是在机器学习研发社区中引起了广泛关注。该模型的核心特点在于其开放权重设计以及借鉴了 OpenAI O1 推理模型...
不要自回归!扩散模型作者创业,首个商业级扩散LLM来了,编程秒出结果
Inception Labs推出了首个商业级扩散大型语言模型Mercury,标志着Transformer与扩散模型的融合进入实际应用阶段。该模型在英伟达H100上实现每秒超过1000个tok...
AAAI 2025丨2080Ti 也能 4K 图像抠图 !美图&北交大提出超高分辨率自然图像抠图算法 MEMatte
美图影像研究院(MT Lab)与北京交通大学联合提出了一种名为MEMatte的显存友好型自然图像抠图框架,旨在解决显存受限环境下的高清图像精细抠图问题。该研究针...
谷歌新架构一战成名,打破Transformer记忆瓶颈,姚班校友钟沛林新作
谷歌的“Titan”架构作为一种新的深度学习模型,旨在挑战现有的Transformer架构。该架构的核心是一个神经长期记忆模块(LMM),它能够记住长期信息,并有效地扩...
腾讯版Sora开源!最强开源视频模型,130亿参数、物理模拟、电影级画质!
腾讯开源了名为HunyuanVideo(混元)的视频模型,这是一个拥有130亿参数的类Sora文生视频模型,是目前参数最大的开源视频模型。混元具备物理模拟、一镜到底、...
视频大模型无损提速:删除多余token,训练时间减少30%,帧率越高效果越好 | NeurIPS
卡内基梅隆大学提出了一种名为Run-Length Tokenization(RLT)的视频大模型加速方法,该方法通过合并视频中连续相同的图像块为一个token,显著提升了Transfor...