GPT-4o 现货变期货,是什么在拖 OpenAI 的后腿

AIGC动态5个月前发布 geekpark
987 0 0
GPT-4o 现货变期货,是什么在拖 OpenAI 的后腿

 

文章摘要


【关 键 词】 实时AI情感分析技术挑战RTC技术AI陪伴

RTC技术实时AI普及中扮演着关键角色。OpenAI的GPT-4o模型通过提高效率和加入情感分析,将AI语音互动的平均时延缩短至320毫秒,与人类日常对话响应速度几乎一致。然而,尽管发布会展示了实时多模态大模型的潜力,产品落地过程中却面临诸多挑战,如实时音视频功能的上线跳票和视频多模态产品迟迟不开放。

AI陪伴产品的市场需求、增速和市场空间推动了商业模式和人机交互的变革。技术进步,尤其是实时AI语音技术,在过去六个月内经历了三次迭代。第一波技术浪潮的代表产品Pi和Call Annie,虽然界面简洁且增加了语音功能,但仍存在高时延和情感表达不足的问题。随后,EVI通过加入SST算法,实现了情感表达的丰富性,但时延问题仍未解决。

GPT-4o的发布标志着多模态技术的融合,通过端到端训练的新模型,显著改善了时延问题,并使情感理解成为可能。然而,从发布会到产品落地的最后一公里仍充满挑战。AI实时语音面临的阻力包括技术、监管和商业方面的困难。技术层面上,大模型可能过于乐观,缺乏对物理世界的观察和互动。监管层面上,端到端的语音大模型需要在模型架构、训练方法和多模态交互等方面实现技术突破,同时面临语音监管的挑战。商业层面上,端到端音视频大模型的训练成本高昂,对普通AI企业来说难以承受。

在工程落地层面,GPT-4o类AI实时语音产品在实验室环境下表现出色,但在实际应用中仍面临RTC通信层面的技术挑战。RTC技术在实时网络环境下进行音视频传输和交互,需要解决低延时传输、网络优化、多设备适配和音频信号处理等问题。OpenAI正在招聘工程人才,以将最先进的模型部署到RTC环境中。开源的WebRTC方案虽然在技术层面有所突破,但在产品化方面仍显薄弱。

声网作为RTC领域的代表性厂商,凭借行业经验和技术积累,为全球60%的泛娱乐App提供RTC服务。其自研的SD-RTN™实时传输网络覆盖全球200多个国家与地区,音视频全球端到端延迟平均达到200ms。声网的智能路由技术和抗弱网算法保障通话稳定性和流畅性,同时针对终端设备差异性积累了丰富的know-how。

AI实时语音交互是一场在想象力和难度上都不应被低估的战争。要实现其未来,需要在算法、审核和RTC等方面不断突破。日积月累的深耕细作是语音延迟极致优化和实时语音交互普遍商用的唯一途径。这需要企业既要仰望技术的星空,更要脚踏工程化的实地。

“极客训练营”

原文和模型


【原文链接】 阅读原文 [ 3785字 | 16分钟 ]
【原文作者】 极客公园
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★★

© 版权声明
“绘蛙”

相关文章

暂无评论

暂无评论...