文章摘要
【关 键 词】 OpenAI、Voice Engine、语音生成、技术应用、造假风险
OpenAI近期展示了其新型语音生成模型“Voice Engine”,这一技术能够通过文本输入和短短15秒的音频样本,生成与原始说话者声音高度相似的自然语言语音。这项技术已经被应用于OpenAI的文本转语音API以及ChatGPT的语音和朗读功能中。
Voice Engine的问世对于需要频繁录制语音的专业人士,如播客、配音艺术家、有声书解说员等,具有重大影响。然而,目前这项技术仅在小范围内提供,OpenAI与包括教育技术公司、视觉叙事平台、健康软件制造商等在内的几家公司合作,以此来收集反馈,优化技术,并考虑其在不同行业中的应用。
OpenAI官网提供了Voice Engine的使用示例,展示了AI生成的音频剪辑,这些剪辑在音色、语调和停顿等方面都与原始音频极为相似。该技术不仅能“复制”声音,还能将音频翻译成不同语言,这对音频业务公司如Spotify等非常有用。
AI文本到音频生成是生成式AI的一个领域,目前主要集中在生成音乐或自然声音上,而语音生成方面的探索相对较少,部分原因是人们对深度伪造的风险持担忧态度。Voice Engine可以创建听起来非常像本人的语音,但这也带来了安全问题。例如,已经有AI技术被用于伪造声音,如模仿美国总统的声音进行电话骚扰。
为了应对这些风险,OpenAI采取了一系列措施,包括缩减发布规模、要求合作伙伴遵守使用政策、获取原始说话者的知情同意、向听众披露声音为AI生成,并在音频剪辑中添加不可听见的水印以区分AI生成的音频。
最后,OpenAI呼吁银行取消语音认证作为安全措施,并加强对AI深度伪造的教育,同时开发更多技术以检测音频内容的真实性,以应对更先进的AI技术带来的挑战。这表明,尽管Voice Engine带来了创新和便利,但其潜在的风险也需要通过合作和技术进步来共同管理。
原文和模型
【原文链接】 阅读原文 [ 1305字 | 6分钟 ]
【原文作者】 AI前线
【摘要模型】 gpt-4
【摘要评分】 ★★★☆☆