实时音视频领域拓荒者的十年

AI-Agent2年前 (2024)发布 aitechtalk

3,385 0 0

文章摘要

实时对话式AI的机遇正在被业界广泛讨论和探索。RTE（实时互联网）大会自2015年引入中国以来，已发展成为全球规模最大的音视频行业峰会，吸引了众多行业专家和企业参与。2024年的RTE大会上，国内大模型领域的“大模型六虎”和AI大牛创业者分享了他们在AI Infra领域创业的经验心得以及对RTE+AI趋势的判断。声网作为RTC技术的深耕者，通过RTE大会提供了一个交流平台，共同探索RTE+AI的未来潜力。

声网CEO赵斌曾期待通过RTC大会让开发者使用实时音视频功能像使用水一样简单，十年后，实时音视频功能已成功融入各行各业和大众生活。声网的RTC PaaS服务降低了开发者门槛和成本，使得实时音视频技术得以广泛应用。RTE大会已成为行业的风向标，每年成功预判未来趋势。

随着AI成为科技主流，RTE大会以“AI 爱”为主题，推出了覆盖AI、出海、Voice AI等20+行业及技术分论坛。声网发布了RTE+AI能力全景图，清晰呈现了RTE与AI相结合的技术能力与应用方案。生成式AI与RTE结合带来的场景创新，将成为下一个十年的主题。

实时多模态被认为是通向AGI的必由之路。GPT-4o的发布展示了实时语音交互能力，大幅降低了语言延迟，让AI与人类的对话接近人类真实对话的反应速率。RTC技术的进步是将多模态大模型与实时互动场景连接起来的关键技术桥梁。声网通过与行业伙伴的合作，发现多模态对话体验存在两个关键侧面：声音体验和人与大模型支持的agent对话时的互动体验。未来RTE基础设施将成为多模态大模型AI Infra的关键部分。

在这场多模态带来的实时对话式AI的竞争中，只有拥有核心技术和具备行业解决方案能力的实时音视频厂商才能接住大模型带来的新机遇。声网作为实时音视频领域的拓荒者，已深耕行业十年，其对话式AI解决方案将对话响应延时优化至500毫秒，支持文本/音频/图像/视频的组合输入&输出，构建真实、自然的AI语音交互体验。