文章摘要
【关 键 词】 大语言模型、视频转音频、音频生成、口型同步、音频优化
专注于AIGC领域的专业社区,关注微软、OpenAI、百度文心一言、讯飞星火等大语言模型(LLM)的发展和应用落地,聚焦LLM的市场研究和AIGC开发者生态。谷歌Deepmind在其官网推出了视频转音频模型V2A,用户可以通过视频和文本提示的方式,利用V2A为视频模型自动匹配语音。这一功能可以为紧张、恐怖、惊悚的片段自动生成合适的语音,从而节省制作时间并提高效率。V2A还可以与谷歌的视频模型Veo结合使用,进一步增强其功能。
目前,许多知名模型如Sora、可灵、Gen-3、Dream Machine等生成的视频没有任何声音,用户需要进行二次加工配音,这在嘴型和音轨匹配方面较为麻烦。V2A能够生成无限数量的音轨,用户可以根据实际需求选择最贴近的内容。例如,为一个骑马的牛仔视频配上音乐,提示词可以是“草原上夕阳西下时,悠扬柔和的口琴声响起”。
V2A的模型架构首先将视频和音频提示输入编码,生成初始的压缩表示。通过迭代的方式,扩散模型不断优化音频,使其与视觉信息和文本提示同步。这确保了生成的音频不仅具有高逼真度,还能准确反映视频中的场景和动作。最终,生成的音频被解码,转换为音频波形,并与视频数据结合。
为了提高音频质量并增加对特定声音生成的控制,V2A在训练过程中加入了多种训练数据,包括AI生成的详细音频描述和对话的转录。这些额外的注释使得V2A系统能够学习将特定的音频事件与各种视觉场景关联起来,并根据提供的注释或转录做出响应。这使得V2A在处理视频像素和生成音频时,不需要手动调整生成的声音与视频的对齐,从而避免了繁琐的声音、视觉和时间元素的调整,为生成逼真的音效奠定了坚实的基础。
此外,V2A在改进语音的口型同步方面进行了大量优化,会从视频输入和文字转录中抽取信息,生成初步的音频表示并通过扩散模型不断细化。为了进一步提升口型同步的准确性,V2A在训练过程中加入了更多的信息,包括AI生成的详细音频描述和对话转录。这不仅改善了语音与口型的同步,还提高了整体音频生成的质量。
原文和模型
【原文链接】 阅读原文 [ 2084字 | 9分钟 ]
【原文作者】 AIGC开放社区
【摘要模型】 gpt-4o
【摘要评分】 ★★★★★