文章摘要
【关 键 词】 语音合成、技术揭幕、跨语言克隆、安全问题、社会关注
OpenAI最近正式揭幕了一款新的语音合成引擎Voice Engine,这项技术令人瞩目的特点在于,它能够仅凭15秒的语音样本克隆出一个人的声音,并且能够跨越不同语言。这项技术已经被集成到APP版ChatGPT的语音对话功能中。尽管OpenAI在2022年底就已经开发出了这项技术,但由于安全考虑,它一直未被公开。
Voice Engine的应用案例包括帮助非营利医疗机构的年轻病人恢复声音,以及视频翻译软件HeyGen的语音引擎。此外,一家儿童教育技术公司也利用这项技术为编写的画外音内容配音,提供阅读辅助。这些DEMO展示了基于短暂样本合成长段语音的能力。
在HeyGen的语音翻译技术中,原始的英语音频可以被翻译成普通话、法语、德语等多种语言,保持原始音色的同时,腔调上的差异表明了语音合成技术的局限性。Livox这款残障人士辅助应用也利用Voice Engine为不能说话的残障人士“发出声音”,提供了真人音色的选择,而不是机械感明显的合成音。
Voice Engine还能帮助因疾病导致声音发生重大改变的人群恢复患病之前的声音。例如,一名年轻患者因血管性脑肿瘤失去流利讲话能力,医生利用她患病前的声音样本,通过Voice Engine帮助她恢复了之前的音色。
尽管这项技术的积极应用受到了好评,但公众对其潜在滥用的担忧也随之而来。OpenAI对此表示出了高度的关注,采取了一系列安全措施,包括对开发者的严格筛选、要求明确说明声音是合成的、设置黑名单防止克隆公众人物声音、向合成声音中添加水印以便监控等。同时,OpenAI呼吁社会共同关注这一问题,建议逐步淘汰语音验证方式,探索个人声音的保护措施,教育公众理解AI的局限性,以及加速开发跟踪溯源技术,以便人们能够清晰辨别真人和AI声音。
原文和模型
【原文链接】 阅读原文 [ 1024字 | 5分钟 ]
【原文作者】 量子位
【摘要模型】 gpt-4
【摘要评分】 ★★☆☆☆