国产全AI游戏来了？！大模型直出开放世界游戏，有声可交互

1,891 0 0

文章摘要

巨人网络近期发布了“千影 QianYing”有声游戏生成大模型，标志着AI游戏生成技术的新突破。该模型包括YingGame和YingSound两大模块，前者专注于开放世界游戏视频生成，后者则针对视频配音。YingGame能够根据文本或图像生成模拟开放世界游戏视频，并实现角色动作的交互控制和自定义。该模型在物理规律仿真、动作控制、角色个性化和第一人称视角方面表现出色，技术实现上融合了跨模态特征、细粒度角色表征等策略，并构建了高效的游戏视频训练数据生产管线。

YingSound则是一个多模态音效生成大模型，能够为无声视频配音效，实现音画同步。它具备时间对齐和视频语义理解能力，支持多种音效生成，并在游戏、动漫、真实世界视频等多种场景中展现出泛化能力。YingSound的核心模块包括基于DiT的Flow-Matching音效生成模块和多模态思维链控制模块，确保音效生成的精准性。研究团队还构建了符合行业标准的V2A数据集，并设计了一套数据处理流程，确保数据质量。

YingSound在整体效果、时间对齐和视频语义理解等客观测评上达到业界领先水平，预示着视频生成技术可能对游戏行业带来颠覆式创新。通过文字描述创作游戏的时代正在到来，AI技术的发展将降低游戏创作的门槛，使游戏创作的限制仅在于创作者的想象力。巨人网络正在探索打造AI游戏孵化平台，以期实现游戏创作的平权。