「黑神话」级3A大作AI实时游戏生成!港科大、中科大等祭出最强扩散Transformer,火爆国外

AIGC动态2周前发布 AIera
215 0 0
「黑神话」级3A大作AI实时游戏生成!港科大、中科大等祭出最强扩散Transformer,火爆国外

 

文章摘要


【关 键 词】 AI技术游戏生成交互控制数据集构建模型架构

由香港科技大学、中国科学技术大学等机构联合推出的GameGen-X,是一项突破性的AI技术,它首次实现了开放世界游戏的AI生成与交互控制。这项技术基于扩散Transformer模型,能够模拟游戏引擎特性,生成高质量的开放世界游戏内容,包括新角色、动态环境、复杂动作和各种事件。GameGen-X还能进行交互式控制,根据当前片段预测或更改未来内容,实现游戏模拟。

GameGen-X在角色、环境、动作和事件生成方面表现出色,能够创建多样化和创造性的游戏内容。它还提供了交互式可控性,首次将角色交互和场景内容控制统一起来,AI可以根据当前片段预测和更改未来内容,从而实现游戏模拟。这一过程模拟现实一般的体验,因为环境和角色都是动态发展的。

GameGen-X的训练过程分为两个阶段:基础模型预训练和指令微调。预训练阶段在OGameData-GEN数据集上进行,使其具备生成长序列、高质量开放世界游戏视频的能力。为了实现交互可控性,研究团队设计了InstructNet,纳入了与游戏相关的多模态信号控制专家系统,使得模型能够根据用户输入微调潜表征,统一角色交互和场景内容的调控。

研究团队还构建了首个专为游戏视频生成和交互式控制设计的大规模数据集OGameData,包含100万个高分辨率视频片段,提供了游戏特定知识,如游戏名称、玩家视角和角色细节等元素。OGameData的构建与处理流程确保了模型训练中文本-视频的一致性,提高了模型训练的质量。

GameGen-X的模型架构包括三维时空变分自编码器(3D-VAE)和掩码时空扩散Transformer(MSDiT),有效生成由文本提示引导的游戏视频。MSDiT结合了空间注意力、时间注意力和交叉注意力机制,确保帧间的一致性,并使视频生成与文本提示的语义信息保持一致。

GameGen-X在多个指标上表现良好,包括Fréchet Inception Distance(FID)、Fréchet Video Distance(FVD)、文本视频对齐(TVA)、用户偏好度(UP)、运动平滑度(MS)、动态度(DD)、主体一致性(SC)和成像质量(IQ)。它在控制能力方面优于其他模型,突显了其在生成上下文适宜和互动性游戏内容方面的有效性。

GameGen-X的开发为模型训练提供了重要的基础,使其能够捕捉开放世界游戏的多样性和复杂性。通过两阶段的训练过程,GameGen-X实现了内容生成和交互控制之间的相互增强,从而实现了丰富且身临其境般的模拟体验。这项技术不仅展示了生成模型作为传统渲染技术辅助工具的潜力,还为游戏内容设计的未来开辟了新的视野,表明游戏设计与开发有可能转向更加自动化、数据驱动的流程,减少游戏内容早期创建所需的手动工作。

豆包-智能助手

原文和模型


【原文链接】 阅读原文 [ 4153字 | 17分钟 ]
【原文作者】 新智元
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★★

© 版权声明

相关文章

暂无评论

暂无评论...