大视频模型是世界模型?DeepMind/UC伯克利华人一作:预测下一帧就能改变世界

AIGC动态7个月前发布 AIera
595 0 0

模型信息


【模型公司】 月之暗面
【模型名称】 moonshot-v1-32k
【摘要评分】 ★★★★☆

大视频模型是世界模型?DeepMind/UC伯克利华人一作:预测下一帧就能改变世界
 

文章摘要


【关 键 词】 DeepMind视频模型物理世界语言模型人工智能

新智元报道指出,谷歌DeepMind、UC伯克利和MIT的研究人员提出了一种大视频模型的概念,认为这可能比现有的大语言模型更接近于构建一个完整的世界模型。他们认为,视频生成技术有潜力彻底改变物理世界的决策过程,就像语言模型改变了数字世界一样。研究人员提出,视频可以作为一个统一的接口,吸收互联网知识并表征不同的任务。例如,计算机视觉任务可以被视为帧生成任务,视频模型可以通过生成操作视频来回答人们的问题,这可能比文本响应更直观。此外,视频生成也可以用于统一不同实体的观察空间,为机器人生成视觉执行计划。

研究人员还探讨了视频生成技术在游戏环境、机器人与自动驾驶、科学与工程等领域的应用。他们认为,视频生成技术可以作为一种有效的视觉模拟工具,帮助优化控制策略。尽管视频生成模型面临虚假生成和泛化能力的挑战,但它们有潜力成为自主的AI智能体、规划者、环境模拟器和计算平台,并最终可能作为一种人工智能大脑,在物理世界中进行思考和行动。

原文信息


【原文链接】 阅读原文
【阅读预估】 5356 / 22分钟
【原文作者】 新智元
【作者简介】 智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。

© 版权声明

相关文章

暂无评论

暂无评论...