文章摘要
【关 键 词】 AI游戏、技术突破、音效生成、视频配音、游戏创作
巨人网络近期发布了“千影 QianYing”有声游戏生成大模型,标志着AI游戏生成技术的新突破。该模型包括YingGame和YingSound两大模块,前者专注于开放世界游戏视频生成,后者则针对视频配音。YingGame能够根据文本或图像生成模拟开放世界游戏视频,并实现角色动作的交互控制和自定义。该模型在物理规律仿真、动作控制、角色个性化和第一人称视角方面表现出色,技术实现上融合了跨模态特征、细粒度角色表征等策略,并构建了高效的游戏视频训练数据生产管线。
YingSound则是一个多模态音效生成大模型,能够为无声视频配音效,实现音画同步。它具备时间对齐和视频语义理解能力,支持多种音效生成,并在游戏、动漫、真实世界视频等多种场景中展现出泛化能力。YingSound的核心模块包括基于DiT的Flow-Matching音效生成模块和多模态思维链控制模块,确保音效生成的精准性。研究团队还构建了符合行业标准的V2A数据集,并设计了一套数据处理流程,确保数据质量。
YingSound在整体效果、时间对齐和视频语义理解等客观测评上达到业界领先水平,预示着视频生成技术可能对游戏行业带来颠覆式创新。通过文字描述创作游戏的时代正在到来,AI技术的发展将降低游戏创作的门槛,使游戏创作的限制仅在于创作者的想象力。巨人网络正在探索打造AI游戏孵化平台,以期实现游戏创作的平权。
原文和模型
【原文链接】 阅读原文 [ 2135字 | 9分钟 ]
【原文作者】 量子位
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★☆☆☆
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...