大视频模型是世界模型？DeepMind/UC伯克利华人一作：预测下一帧就能改变世界

AIGC动态1年前 (2024)发布 AIera

1,900 0 0

模型信息

【模型公司】 月之暗面
【模型名称】 moonshot-v1-32k
【摘要评分】 ★★★★☆

文章摘要

新智元报道指出，谷歌DeepMind、UC伯克利和MIT的研究人员提出了一种大视频模型的概念，认为这可能比现有的大语言模型更接近于构建一个完整的世界模型。他们认为，视频生成技术有潜力彻底改变物理世界的决策过程，就像语言模型改变了数字世界一样。研究人员提出，视频可以作为一个统一的接口，吸收互联网知识并表征不同的任务。例如，计算机视觉任务可以被视为帧生成任务，视频模型可以通过生成操作视频来回答人们的问题，这可能比文本响应更直观。此外，视频生成也可以用于统一不同实体的观察空间，为机器人生成视觉执行计划。

研究人员还探讨了视频生成技术在游戏环境、机器人与自动驾驶、科学与工程等领域的应用。他们认为，视频生成技术可以作为一种有效的视觉模拟工具，帮助优化控制策略。尽管视频生成模型面临虚假生成和泛化能力的挑战，但它们有潜力成为自主的AI智能体、规划者、环境模拟器和计算平台，并最终可能作为一种人工智能大脑，在物理世界中进行思考和行动。

原文信息

【原文链接】 阅读原文
【阅读预估】 5356 / 22分钟
【原文作者】 新智元
【作者简介】 智能+中国主平台，致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展，关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响，领航中国新智能时代。