模型信息
【模型公司】 月之暗面
【模型名称】 moonshot-v1-32k
【摘要评分】 ★★★★☆
文章摘要
【关 键 词】 DeepMind、视频模型、物理世界、语言模型、人工智能
新智元报道指出,谷歌DeepMind、UC伯克利和MIT的研究人员提出了一种大视频模型的概念,认为这可能比现有的大语言模型更接近于构建一个完整的世界模型。他们认为,视频生成技术有潜力彻底改变物理世界的决策过程,就像语言模型改变了数字世界一样。研究人员提出,视频可以作为一个统一的接口,吸收互联网知识并表征不同的任务。例如,计算机视觉任务可以被视为帧生成任务,视频模型可以通过生成操作视频来回答人们的问题,这可能比文本响应更直观。此外,视频生成也可以用于统一不同实体的观察空间,为机器人生成视觉执行计划。
研究人员还探讨了视频生成技术在游戏环境、机器人与自动驾驶、科学与工程等领域的应用。他们认为,视频生成技术可以作为一种有效的视觉模拟工具,帮助优化控制策略。尽管视频生成模型面临虚假生成和泛化能力的挑战,但它们有潜力成为自主的AI智能体、规划者、环境模拟器和计算平台,并最终可能作为一种人工智能大脑,在物理世界中进行思考和行动。
原文信息
【原文链接】 阅读原文
【阅读预估】 5356 / 22分钟
【原文作者】 新智元
【作者简介】 智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...