GPT-4o 最关键功能本周上线,语音交互的时代终于要来了

AI-Agent5个月前发布 Founder Park
1,015 0 0
GPT-4o 最关键功能本周上线,语音交互的时代终于要来了

 

文章摘要


【关 键 词】 语音交互智能代理人机交互创业投资AI应用

Voice Agent作为下一代人机交互界面,以其与人类自然沟通方式的一致性,提供了一种直观且低能耗的交互体验。与传统文本交互相比,语音交互更适合简短、即时的信息交流,且在某些场景下,Voice Agent可独立完成交流任务,无需人类参与。GPT-4o作为首个实现端到端voice-in, voice-out的大模型,以其低延迟、高智能特点,为交互形态带来变革,拓展了应用场景的想象空间。

本研究根据不同场景对实时性、准确性、创造性的不同要求,构建了分析Voice Agent能力禀赋框架,识别出值得关注的创业及投资机会。短期内,看好开发者工具和面向垂直领域的Voice Agent workflow;长期则期待消费者端「Killer app」的出现。

Voice Agent主要落地场景通过象限分类标准划分为四类:第一象限(右上)的陪伴、心理疗愈等场景,需要实时回答,对AI交流内容的容错率和自由度较高;第二象限(左上)的call center、销售、客服、教育等场景,同时要求实时回答和高准确度,落地难度最大;第三象限(左下)的有声书、短视频配音、模板化外呼电话等场景,可以离线完成,要求voice agent按台本发挥;第四象限(右下)的领域,如音乐生成、npc语音生成等,对创意要求高,但可离线生成。

针对不同目标客户,将创业方向分为To Developer、To Enterprise、To Customer三个类型。To Developer的创业公司主要面向开发者提供API或开发平台,短期价值高,长期价值不明确,可能被端到端大模型颠覆。To Enterprise的创业公司面向企业用户,提供垂直领域设计的AI phone agent或企业端的无代码平台,长期因市场fragmented,只能在某一垂直行业占较大份额。To Customer的创业公司面向消费者,短期内商业化价值尚不明确,长期可能出现AI-native killer app。

To Developer领域的创业机会来自搭建voice agent的核心要素。端到端多模态模型如GPT-4o具有惊艳效果,但企业用例落地面临可控性降低的挑战。关键问题包括voice agent在企业用例的落地、GPT-4o API的开放时间和形式、端到端模型如何改变voice agent工作流。To B领域的语音是进入核心客户行为的自然入口,垂直领域存在市场机会,To B场景下的垂直解决方案难被端到端模型颠覆。To C领域的voice agent作为AI时代的交互界面,长期价值高,可能出现下一个AI-native killer app。

值得关注的公司包括11labs、Hume AI、LiveKit、Bland AI、Retell AI等。11labs作为海外独角兽,是TTS领域的佼佼者;Hume AI是相对成熟的emotion engine;LiveKit提供GPT-4o RTC方案;Bland AI和Retell AI分别在Full stack平台和中间件层提供解决方案。这些公司在voice agent工作流的不同模块中发挥重要作用,推动行业发展。

“极客训练营”

原文和模型


【原文链接】 阅读原文 [ 7587字 | 31分钟 ]
【原文作者】 Founder Park
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★★

© 版权声明
“绘蛙”

相关文章

暂无评论

暂无评论...