黄仁勋圈重点的世界模型平台是个啥?技术报告全解析,华人贡献中坚力量

黄仁勋圈重点的世界模型平台是个啥?技术报告全解析,华人贡献中坚力量

 

文章摘要


【关 键 词】 AI发展物理AI视频模型自动驾驶机器人技术

英伟达在CES发布会上推出了名为Cosmos的平台,标志着AI领域向物理世界的深入发展。Cosmos是一个世界模型平台,提供一系列开源、参数量从4B到14B的视频世界模型,旨在为机器人、自动驾驶汽车等AI系统生成照片级真实、基于物理的合成数据,以解决数据不足的问题。平台发布了8个模型,这些模型在2000万小时视频数据上训练,分为扩散和自回归模型两类,支持文本生成视频和文本+视频生成视频。

英伟达表示,包括1X、Agile Robots、Agility、Uber等在内的多家领先机器人和汽车公司已成为Cosmos的首批用户。黄仁勋强调,世界基础模型对推动机器人和自动驾驶汽车开发至关重要,但非所有开发者都具备训练自己的世界模型的专业知识和资源。Cosmos的发布旨在普及物理AI,让每个开发者都能使用通用机器人技术

技术报告详细介绍了构建物理AI的Cosmos世界基础模型(WFM)平台,主要关注视觉世界基础模型。报告提出了预训练和后训练的范式,将WFM分为预训练WFM和后训练WFM。预训练WFM利用大规模视频训练数据集,使模型接触不同视觉体验,成为通才。后训练WFM使用特定物理AI环境数据集对预训练WFM微调,建立专门WFM。

为了构建高上限的预训练WFM,作者开发了视频数据整理pipeline,从2000万小时视频集合中提取约1亿个视频片段,使用视觉语言模型(VLM)为每256帧提供视频描述。报告探讨了基于Transformer的扩散模型和自回归模型两种构建预训练WFM的可扩展方法。扩散模型通过逐步去除高斯噪声视频中的噪声生成视频,自回归模型基于之前生成内容逐段生成视频。

报告还介绍了基于Transformer的扩散模型和自回归模型使用token表示视频,前者使用连续token,后者使用离散token。作者开发了基于注意力的编码器-解码器架构,用于学习连续和离散token的视频token化。在第六章中,作者对预训练的WFM进行微调,以获得适用于各种物理AI任务的后训练WFM。英伟达开发的WFM预期用途是物理AI构建者,为在使用WFM时更好地保护开发人员,作者开发了一个功能强大的防护系统,包括用于阻止有害输入的前置防护系统和用于阻止有害输出的后置防护系统。

英伟达的目标是建立一个世界基础模型平台,帮助物理AI构建者推进他们的系统。为此,他们根据NVIDIA开放模型许可,在NVIDIA Cosmos和NVIDIA Cosmos Tokenizer目录下提供预训练的世界基础模型和tokenizer。预训练脚本和后训练脚本将与视频数据整理pipeline一起在NVIDIA Nemo Framework目录下提供,以帮助构建者制作微调数据集。

“极客训练营”

原文和模型


【原文链接】 阅读原文 [ 4001字 | 17分钟 ]
【原文作者】 机器之心
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★★

© 版权声明
“绘蛙”

相关文章

暂无评论

暂无评论...