惊了!中国企业研发的类GPT-4o视频通话功能率先开放上线,比OpenAI还领先,但却把智谱官网错认|钛媒体AGI
文章摘要
【关 键 词】 AI模型、KDD大会、多模态、视频通话、技术突破
智谱AI在KDD 2024大会上发布了新一代基础模型GLM-4-Plus系列,包括语言模型GLM-4-Plus、文生图模型CogView-3-Plus、图像/视频理解模型GLM-4V-Plus和视频生成模型CogVideoX。这些模型在各项指标上均达到了国际第一梯队的水准,并在MaaS平台上免费开放GLM-4-Flash API。
GLM-4-Plus模型在语言理解、指令遵循、长文本处理等方面性能得到全面提升,与GPT-4o等第一梯队模型持平。CogView-3-Plus模型采用Transformer架构替代传统UNet架构,深入研究扩散模型的噪声规划,效果接近一线水平。GLM-4V-Plus模型具备卓越的图像理解能力和基于时间采集的视频理解能力,成为国内首个通用视频理解能力模型API。
智谱AI还上线了对标OpenAI GPT-4o的清言视频通话功能,成为国内首个面向C端用户开放的视频通话服务。8月30日,该功能首批面向清言部分用户开放,同时开放外部申请。清言App成为全球首个可以通过文本、音频、视频和图像进行多模态互动的AI助手。
钛媒体AGI编辑测试了清言视频通话功能,发现AI小智在夸”女神”刘亦菲、识别食物和品牌等方面表现良好,但在识别官网和数学问题时出现了一些错误。这表明AI仍需加强数据和信息训练,需要给中国团队更多时间,使产品越来越好。
截至2023年底,智谱AI已拥有超2000家生态合作伙伴、超1000个大模型规模化应用,覆盖传媒、咨询、消费、金融、新能源、互联网、智能办公等多个细分场景。融资方面,智谱AI已完成六轮融资,2023年融资额超过25亿元人民币,公司估值达到30亿美元。
此外,科大讯飞也宣布上线星火极速超拟人交互技术,实现在响应速度、情绪感知、语音表达、人设扮演等方面的突破,对标GPT-4o语音功能。这表明国产AI企业在类GPT-4o、类Sora产品的研发上取得了显著进展,展现了强大的技术实力和勇气。
原文和模型
【原文链接】 阅读原文 [ 1509字 | 7分钟 ]
【原文作者】 钛媒体AGI
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★☆☆