文章摘要
【关 键 词】 GameGen-O、3A游戏、AI生成、模型训练、交互式
腾讯公司推出了一款名为GameGen-O的新型大模型,专门针对3A级开放世界游戏的生成。该模型能够模拟包括《巫师3》、《赛博朋克2077》、《对马岛之魂》、《荒野大镖客2》、《刺客信条》以及《黑神话:悟空》等知名游戏中的角色、动态环境、复杂动作和多样化事件,从而创造出高质量的游戏场景。
GameGen-O的架构设计采用了堆叠的时间DiT(Transformer)和空间DiT,这种结构使得模型能够有效地处理视频数据中的时间序列信息和空间信息,对于生成连贯且视觉上吸引人的游戏内容至关重要。此外,模型还采用了掩码注意力机制,以扩大其生成方法和提高模拟质量。
为了构建数据集,腾讯搜集了超过32,000个游戏视频,经过人工数据标注后产生了15,000个可用视频。这些视频经过场景检测被切割成片段,并基于美学、光流和语义内容进行了排序和过滤。随后,使用专家模型和多模态大型模型进行了结构化注释。为了实现交互式可控性,从这个注释数据集中选择了最高质量的片段,并进行了解耦标注,描述片段内容状态的变化,确保了一个更精细、更交互式的数据集用于训练模型。
GameGen-O的训练过程包括基础模型预训练和指令调整两个阶段。在预训练阶段,模型通过文本到视频和视频延续的方式在OGameData上进行预训练,赋予其生成开放世界游戏的能力。在指令调整阶段,预训练模型被冻结,使用可训练的InstructNet进行微调,使得基于多模态结构指令生成后续帧成为可能。
GameGen-O的模拟能力非常强大,只要有足够的游戏数据,就能按照用户的要求模拟出全新或类似的游戏场景。模型不仅支持文本提示,还支持操作信号和视频作为提示方法,这为游戏内容的生成提供了更多的灵活性和可能性。
原文和模型
【原文链接】 阅读原文 [ 2183字 | 9分钟 ]
【原文作者】 AIGC开放社区
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★★