标签:自回归
Uni-3DAR用自回归统一微观与宏观的3D世界,性能超扩散模型256%,推理快21.8倍
创建和理解3D结构在科学研究中具有重要意义,它不仅承载了丰富的物理与化学信息,还为解构复杂系统、进行模拟预测和跨学科创新提供了重要工具。随着AI技术的...
苹果开源通用视觉模型:创新训练方法,超1000颗星
苹果公司的研究团队最近发布了一款名为AIMv2的通用多模态视觉模型,该模型具有300M、600M、1.2B和2.7B四种参数规模,并且整体能耗低,使其能够适应手机、PC等...
具身智能新高度!智元机器人推出全球首个4D世界模型EnerVerse
智元机器人团队针对具身智能领域的核心科学问题,即如何让机器人在任务指引和实时观测的基础上规划未来动作,提出了EnerVerse架构。该架构通过自回归扩散模型...
刚拿下NeurIPS最佳论文,字节就开源VAR文生图版本,拿下SOTA击败扩散模型
字节跳动商业化技术团队开发了一款名为Infinity的自回归文生图新模型,该模型在图像生成质量上超越了扩散模型,并在推理速度上继承了VAR的速度优势。Infinity...
全球首个多模态世界模型Emu3来了!智源王仲远:为多模态大模型训练范式指明新方向|钛媒体AGI
北京智源人工智能研究院(BAAI)近日发布了全球首个原生多模态世界模型Emu3,该模型采用了自回归技术路线,参数量达到8B(80亿),能够将图像、文本和视频编...
视频、图像、文本,只需基于下一个Token预测:智源Emu3发布,验证多模态模型新范式
智源研究院于2024年10月21日发布了原生多模态世界模型Emu3,这是一个基于下一个token预测的模型,能够在无需扩散模型或组合方法的情况下,完成文本、图像、视...
Ilya观点得证!仅靠预测下一个token统一图像文本视频,智源发布原生多模态世界模型Emu3
智源研究院发布了原生多模态世界模型Emu3,该模型基于下一个token预测,无需依赖扩散模型或组合方法,能够完成文本、图像、视频三种模态数据的理解和生成。Em...
智源 Emu3 证明多模态模型新范式:只需基于下一个 token 预测
智源研究院于2024年10月21日发布了原生多模态世界模型Emu3,这一模型仅通过预测下一个token,就能实现对文本、图像、视频三种模态数据的理解和生成,无需依赖...
何恺明新作再战AI生成:入职MIT后首次带队,奥赛双料金牌得主邓明扬参与
何恺明在加入麻省理工学院(MIT)担任副教授后,首次独立带队完成了一项新的研究工作,提出了一种新的图像生成方法。该方法通过让自回归模型抛弃传统的矢量量...
LeCun怒斥Sora是世界模型,自回归LLM太简化了
LeCun 对世界模型的定义进行了澄清,他认为自回归生成模型只是世界模型的一种特殊情况。Sora 作为一个数据驱动的物理引擎,虽然能够生成高质量的视频,但并不...