WebRTC创建者加入了OpenAI,他如何思考语音AI的未来?

AI-Agent1个月前发布 Founder Park
328 0 0
WebRTC创建者加入了OpenAI,他如何思考语音AI的未来?

 

文章摘要


【关 键 词】 WebRTC语音AI实时交互AI对话语音模型

WebRTC的联合创始人Justin Uberti,同时也是Fixie.ai的联合创始人兼CTO,宣布加入OpenAI领导实时AI项目。Uberti在Google时期参与创建并领导了WebRTC项目,并推动其成为W3C和IETF标准。他从AOL Instant Messenger(AIM)开始,见证了沟通方式的演变,现在正推动人与AI的交互从文本框走向更自然的语音对话。

Fixie.ai在2023年完成种子轮融资后,从AI Agent搭建平台转向实时AI领域,推出了虚拟角色语音对话网站AI.TOWN、大模型速度评测平台thefastest.ai,以及开源语音模型Ultravox。Uberti认为语音交互是AI的未来,我们正回归对话式社会,AI在对话中不易出错,语音AI提供了一个不被批判的环境,声音克隆技术的伦理至关重要,AI的“幻觉”可以是积极的,低延迟是流畅语音交互的关键,语气词对自然对话至关重要,端到端模型直接处理语音所以更自然。

在播客AI Inside中,Uberti分享了他对语音AI未来的思考。他认为,语音部分的发展可能比助手部分更快,我们希望助手能代表我们行动,但目前的AI缺乏内部审查机制,难以判断正确行动。但AI在对话中不易出错,大型语言模型擅长对话,对话也具有自我修复特性。我们正回归对话式社会,语音比文字传递的信息更多。几年后,你会以同样方式看待与AI的对话,就像Zoom通话一样。

Uberti还提到,一些明显的坏处包括克隆声音用于欺诈。业内领先的语音提供商正努力防止这种情况,例如对语音加水印,征得同意,甚至要求用户录制视频并出示身份证明。另一个挑战是,我们曾经相信出版的文本是真实的,但现在不是了。生成式AI也让我们无法相信照片一定是真实的。语音也面临同样的问题。

在AI Town,用户可以与不同的AI角色交谈,它们有自己的生活,会发布社交媒体帖子,你可以给他们发短信,也可以语音通话。我们通常认为大型语言模型的“幻觉”不好,但在这种虚构的AI角色场景中,“幻觉”反而是好事,因为它可以补充角色个性。

Uberti还提到,低延迟不仅仅是为了让对话更流畅,它实际上会影响对话的语义理解。超过600毫秒的延迟,听起来就会像是故意停顿的。所以,低延迟是实现流畅自然语音交互的关键。语气词对自然对话至关重要,像“嗯”、“呃”这样的语气词实际上是对话流程中的一部分,用来控制话语权的。这些特征最终会成为语音AI的一部分。

“极客训练营”

原文和模型


【原文链接】 阅读原文 [ 4393字 | 18分钟 ]
【原文作者】 Founder Park
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★★

© 版权声明
“绘蛙”

相关文章

暂无评论

暂无评论...