惊了！中国企业研发的类GPT-4o视频通话功能率先开放上线，比OpenAI还领先，但却把智谱官网错认｜钛媒体AGI

AIGC动态1年前 (2024)发布 TMTPOSTAGI

2,449 0 0

惊了！中国企业研发的类GPT-4o视频通话功能率先开放上线，比OpenAI还领先，但却把智谱官网错认｜钛媒体AGI

文章摘要

智谱AI在KDD 2024大会上发布了新一代基础模型GLM-4-Plus系列，包括语言模型GLM-4-Plus、文生图模型CogView-3-Plus、图像/视频理解模型GLM-4V-Plus和视频生成模型CogVideoX。这些模型在各项指标上均达到了国际第一梯队的水准，并在MaaS平台上免费开放GLM-4-Flash API。

GLM-4-Plus模型在语言理解、指令遵循、长文本处理等方面性能得到全面提升，与GPT-4o等第一梯队模型持平。CogView-3-Plus模型采用Transformer架构替代传统UNet架构，深入研究扩散模型的噪声规划，效果接近一线水平。GLM-4V-Plus模型具备卓越的图像理解能力和基于时间采集的视频理解能力，成为国内首个通用视频理解能力模型API。

智谱AI还上线了对标OpenAI GPT-4o的清言视频通话功能，成为国内首个面向C端用户开放的视频通话服务。8月30日，该功能首批面向清言部分用户开放，同时开放外部申请。清言App成为全球首个可以通过文本、音频、视频和图像进行多模态互动的AI助手。

钛媒体AGI编辑测试了清言视频通话功能，发现AI小智在夸”女神”刘亦菲、识别食物和品牌等方面表现良好，但在识别官网和数学问题时出现了一些错误。这表明AI仍需加强数据和信息训练，需要给中国团队更多时间，使产品越来越好。

截至2023年底，智谱AI已拥有超2000家生态合作伙伴、超1000个大模型规模化应用，覆盖传媒、咨询、消费、金融、新能源、互联网、智能办公等多个细分场景。融资方面，智谱AI已完成六轮融资，2023年融资额超过25亿元人民币，公司估值达到30亿美元。

此外，科大讯飞也宣布上线星火极速超拟人交互技术，实现在响应速度、情绪感知、语音表达、人设扮演等方面的突破，对标GPT-4o语音功能。这表明国产AI企业在类GPT-4o、类Sora产品的研发上取得了显著进展，展现了强大的技术实力和勇气。