标签:自回归

全球首次,Transformer「混血」速度狂飙65倍!英伟达已下注

扩散建模与自回归方法的融合在语言模型领域取得突破性进展。康奈尔大学、CMU等机构的研究团队提出新型混合框架Eso-LM,首次实现并行生成与KV缓存机制的兼容,...

一块4090搞定实时视频生成!Adobe黑科技来了

近年来,视频合成技术取得了显著进展,但实时生成高质量视频仍然面临挑战。基于双向注意力机制的扩散 Transformer(DiT)能够生成复杂的时序动态内容,但其非...

7B扩散LLM,居然能跟671B的DeepSeek V3掰手腕,扩散vs自回归,谁才是未来?

香港大学与华为诺亚方舟实验室合作开发的扩散推理模型 Dream 7B,在开源扩散语言模型领域取得了新的突破,成为当前性能最佳的模型。该模型在通用能力、数学推...

Uni-3DAR用自回归统一微观与宏观的3D世界,性能超扩散模型256%,推理快21.8倍

创建和理解3D结构在科学研究中具有重要意义,它不仅承载了丰富的物理与化学信息,还为解构复杂系统、进行模拟预测和跨学科创新提供了重要工具。随着AI技术的...

苹果开源通用视觉模型:创新训练方法,超1000颗星

苹果公司的研究团队最近发布了一款名为AIMv2的通用多模态视觉模型,该模型具有300M、600M、1.2B和2.7B四种参数规模,并且整体能耗低,使其能够适应手机、PC等...

具身智能新高度!智元机器人推出全球首个4D世界模型EnerVerse

智元机器人团队针对具身智能领域的核心科学问题,即如何让机器人在任务指引和实时观测的基础上规划未来动作,提出了EnerVerse架构。该架构通过自回归扩散模型...

刚拿下NeurIPS最佳论文,字节就开源VAR文生图版本,拿下SOTA击败扩散模型

字节跳动商业化技术团队开发了一款名为Infinity的自回归文生图新模型,该模型在图像生成质量上超越了扩散模型,并在推理速度上继承了VAR的速度优势。Infinity...

全球首个多模态世界模型Emu3来了!智源王仲远:为多模态大模型训练范式指明新方向|钛媒体AGI

北京智源人工智能研究院(BAAI)近日发布了全球首个原生多模态世界模型Emu3,该模型采用了自回归技术路线,参数量达到8B(80亿),能够将图像、文本和视频编...

视频、图像、文本,只需基于下一个Token预测:智源Emu3发布,验证多模态模型新范式

智源研究院于2024年10月21日发布了原生多模态世界模型Emu3,这是一个基于下一个token预测的模型,能够在无需扩散模型或组合方法的情况下,完成文本、图像、视...

Ilya观点得证!仅靠预测下一个token统一图像文本视频,智源发布原生多模态世界模型Emu3

智源研究院发布了原生多模态世界模型Emu3,该模型基于下一个token预测,无需依赖扩散模型或组合方法,能够完成文本、图像、视频三种模态数据的理解和生成。Em...
1 2