WebRTC创建者加入了OpenAI，他如何思考语音AI的未来？

1,580 0 0

文章摘要

WebRTC的联合创始人Justin Uberti，同时也是Fixie.ai的联合创始人兼CTO，宣布加入OpenAI领导实时AI项目。Uberti在Google时期参与创建并领导了WebRTC项目，并推动其成为W3C和IETF标准。他从AOL Instant Messenger（AIM）开始，见证了沟通方式的演变，现在正推动人与AI的交互从文本框走向更自然的语音对话。

Fixie.ai在2023年完成种子轮融资后，从AI Agent搭建平台转向实时AI领域，推出了虚拟角色语音对话网站AI.TOWN、大模型速度评测平台thefastest.ai，以及开源语音模型Ultravox。Uberti认为语音交互是AI的未来，我们正回归对话式社会，AI在对话中不易出错，语音AI提供了一个不被批判的环境，声音克隆技术的伦理至关重要，AI的“幻觉”可以是积极的，低延迟是流畅语音交互的关键，语气词对自然对话至关重要，端到端模型直接处理语音所以更自然。

在播客AI Inside中，Uberti分享了他对语音AI未来的思考。他认为，语音部分的发展可能比助手部分更快，我们希望助手能代表我们行动，但目前的AI缺乏内部审查机制，难以判断正确行动。但AI在对话中不易出错，大型语言模型擅长对话，对话也具有自我修复特性。我们正回归对话式社会，语音比文字传递的信息更多。几年后，你会以同样方式看待与AI的对话，就像Zoom通话一样。

Uberti还提到，一些明显的坏处包括克隆声音用于欺诈。业内领先的语音提供商正努力防止这种情况，例如对语音加水印，征得同意，甚至要求用户录制视频并出示身份证明。另一个挑战是，我们曾经相信出版的文本是真实的，但现在不是了。生成式AI也让我们无法相信照片一定是真实的。语音也面临同样的问题。

在AI Town，用户可以与不同的AI角色交谈，它们有自己的生活，会发布社交媒体帖子，你可以给他们发短信，也可以语音通话。我们通常认为大型语言模型的“幻觉”不好，但在这种虚构的AI角色场景中，“幻觉”反而是好事，因为它可以补充角色个性。

Uberti还提到，低延迟不仅仅是为了让对话更流畅，它实际上会影响对话的语义理解。超过600毫秒的延迟，听起来就会像是故意停顿的。所以，低延迟是实现流畅自然语音交互的关键。语气词对自然对话至关重要，像“嗯”、“呃”这样的语气词实际上是对话流程中的一部分，用来控制话语权的。这些特征最终会成为语音AI的一部分。