音画同步,AI视频也能有完美「原声音」,可灵AI刚上线的!

文章摘要
可灵AI推出的Kling-Foley模型标志着生成式AI在音视频同步领域的重要突破。该模型能够通过多模态控制,自动生成与视频内容同步的高质量立体声音频,涵盖音效、背景音乐等多种类型声音内容。Kling-Foley不仅支持基于视频内容与可选文本提示生成音频,还具备立体声渲染的能力,支持空间定向的声源建模和渲染。这一技术的核心在于其多模态联合条件模块和MMDit模块的设计,使得模型能够灵活处理文本、视频和音频的任意两种模态组合,从而实现精准的音视频同步。
传统的AI文本生成音频方法在实际应用中面临诸多挑战,如生成的音效与视频内容不同步等问题。相比之下,Kling-Foley通过视频生成音频(V2A)方法,直接结合视频和文本,提升了音效生成的相关性和准确度。模型引入了视觉语义表示模块和音视频同步模块,能在帧级别上对齐视频条件与音频潜层元素,从而显著提升视频语义对齐与音视频同步的效果。此外,Kling-Foley还应用了通用潜层音频编解码器,能够在音效、语音、歌声和音乐等多样化场景下实现高质量建模。
为了训练Kling-Foley模型,可灵AI从无到有构建了一个庞大的多模态数据集,样本总数高达1亿+,每个样本都包含原始视频片段、对应的单声道音频片段以及结构化文本描述。这一数据集覆盖了真实世界中大量的声学场景,包括自然环境、人类活动、动物声音、机械操作、交通工具等,为学习多样的生成模式提供了扎实的基础。此外,可灵AI还构建并开源了Kling-Audio-Eval基准数据集,包含20935个精细标注的样本,覆盖了九大类主要的声音事件场景,支持对模型性能进行全面和多角度的评估。
实验结果表明,Kling-Foley在音频质量、语义对齐和音视频同步方面,于现有公开模型中取得了全新的SOTA(业内最佳)性能。在音效、音乐、语音和歌唱四种场景的编解码能力上,Kling-Foley在大部分指标上均取得了最优成绩。这一技术不仅在频谱上准确无误,而且在感知上也更接近真实的原始音效,显著提升了AI生成音效的实用性和用户体验。
可灵AI平台已逐步将Kling-Foley的音效生成能力实用化。今年3月,平台上线了「文生音效」功能,支持用户通过输入文本生成相应音效,并自动生成与视频内容匹配的音效。到了6月初,平台在推出2.1版视频生成模型时,添加了「视频音效」的开关,系统会自动生成与视频匹配的音效,增强了整体视听体验。这一功能现已扩展至可灵平台所有版本的视频模型,覆盖了文生视频、图生视频、多图参考生成视频、视频续写、多模态编辑等多种场景,基本实现了有视频就能配音的自动化流程。
通过Kling-Foley模型,可灵AI平台能够自动对视频语义与音频片段实现帧级对齐,「所见即所听」,大幅降低了音频后期制作成本。AI生成的音效不仅立体声效果显著,还能适配动作、自然环境等多种场景,给用户带来了沉浸式的视听体验。这一技术的成功应用,标志着AI视频生成的最后一个技术难关已被攻克,为未来的音视频内容创作开辟了新的可能性。
原文和模型
【原文链接】 阅读原文 [ 2542字 | 11分钟 ]
【原文作者】 机器之心
【摘要模型】 deepseek-v3
【摘要评分】 ★★★★★