一手实测结果出炉!智谱「超大杯」模型全家桶亮相KDD,部分任务超越GPT-4o
文章摘要
【关 键 词】 大模型技术、多模态AI、图像理解、视频生成、技术创新
在KDD 2024大会上,中国的大模型技术取得了显著进展。智谱AI的顾晓韬博士介绍了支持中英双语的对话机器人ChatGLM,以及智谱基础模型的重大升级——GLM-4-Plus。GLM-4-Plus在语言理解、指令遵循和长文本处理等方面性能全面提升,保持了国际领先水平。同时,智谱还发布了文生图模型CogView-3-Plus和图像/视频理解模型GLM-4V-Plus,后者是国内首个通用视频理解模型API。
在实际测试中,GLM-4-Plus在通用知识和逻辑推理任务上表现出色,甚至在某些任务上超越了OpenAI的GPT-4o模型。GLM-4V-Plus在图像理解方面同样表现出色,能够准确描述图像内容和人物关系。此外,GLM-4V-Plus还能理解网页内容并转换为HTML代码,对视频内容进行透彻分析,并生成具有文学性的描述。
智谱还推出了5B版本的CogVideoX,这是当前开源视频生成模型中的佼佼者。在图像生成方面,CogView-3-Plus展示了显著的能力提升,无论是在生成准确单词、还原面部特征还是理解古诗词方面都表现出色。
智谱的C端产品——生成式AI助手智谱清言也迎来了升级,新增了视频通话功能,成为首个支持文本、音频、视频和图像多模态互动的AI助手。这一功能在教育、工作等多种场景中都有应用潜力。
智谱的技术迭代频繁,从基础大模型到小模型,从语言到多模态,从技术到产品,全方位对标OpenAI。智谱的开源模型累计下载量已突破2000万次,显示了其在大模型市场中的竞争力和影响力。通过不断的技术创新和开源策略,智谱正在推动行业的发展,并赢得了越来越多的关注与认可。
原文和模型
【原文链接】 阅读原文 [ 3744字 | 15分钟 ]
【原文作者】 机器之心
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★☆