OpenAI藏了1年多的技术正式公开!15秒素材克隆声音,HeyGen也在用

AIGC动态8个月前发布 QbitAI
797 0 0
OpenAI藏了1年多的技术正式公开!15秒素材克隆声音,HeyGen也在用

 

文章摘要


【关 键 词】 语音合成技术揭幕跨语言克隆安全问题社会关注

OpenAI最近正式揭幕了一款新的语音合成引擎Voice Engine,这项技术令人瞩目的特点在于,它能够仅凭15秒的语音样本克隆出一个人的声音,并且能够跨越不同语言。这项技术已经被集成到APP版ChatGPT的语音对话功能中。尽管OpenAI在2022年底就已经开发出了这项技术,但由于安全考虑,它一直未被公开。

Voice Engine的应用案例包括帮助非营利医疗机构的年轻病人恢复声音,以及视频翻译软件HeyGen的语音引擎。此外,一家儿童教育技术公司也利用这项技术为编写的画外音内容配音,提供阅读辅助。这些DEMO展示了基于短暂样本合成长段语音的能力。

HeyGen的语音翻译技术中,原始的英语音频可以被翻译成普通话、法语、德语等多种语言,保持原始音色的同时,腔调上的差异表明了语音合成技术的局限性。Livox这款残障人士辅助应用也利用Voice Engine为不能说话的残障人士“发出声音”,提供了真人音色的选择,而不是机械感明显的合成音。

Voice Engine还能帮助因疾病导致声音发生重大改变的人群恢复患病之前的声音。例如,一名年轻患者因血管性脑肿瘤失去流利讲话能力,医生利用她患病前的声音样本,通过Voice Engine帮助她恢复了之前的音色。

尽管这项技术的积极应用受到了好评,但公众对其潜在滥用的担忧也随之而来。OpenAI对此表示出了高度的关注,采取了一系列安全措施,包括对开发者的严格筛选、要求明确说明声音是合成的、设置黑名单防止克隆公众人物声音、向合成声音中添加水印以便监控等。同时,OpenAI呼吁社会共同关注这一问题,建议逐步淘汰语音验证方式,探索个人声音的保护措施,教育公众理解AI的局限性,以及加速开发跟踪溯源技术,以便人们能够清晰辨别真人和AI声音。

原文和模型


【原文链接】 阅读原文 [ 1024字 | 5分钟 ]
【原文作者】 量子位
【摘要模型】 gpt-4
【摘要评分】 ★★☆☆☆

© 版权声明

相关文章

暂无评论

暂无评论...