最强国产多模态刚刚易主!腾讯混元把GPT-4/Claude-3.5/Gemini-1.5都超了

AIGC动态4个月前发布 QbitAI
855 0 0
最强国产多模态刚刚易主!腾讯混元把GPT-4/Claude-3.5/Gemini-1.5都超了

 

文章摘要


【关 键 词】 多模态模型腾讯hunyuan元宝APP多端同步AI应用

在最新的中文多模态大模型测评基准SuperCLUE-V中,腾讯的hunyuan-vision和上海AI Lab的InternVL2-40B分别成为闭源和开源界的领跑者,表现出色,甚至在某些方面超越了谷歌的Gemini-1.5-Pro和Claude-3.5-Sonnet。尽管GPT-4o仍占据榜首,但国产模型与其差距已显著缩小。

腾讯的hunyuan-vision是腾讯混元大模型的多模态版本,目前已在腾讯元宝APP中免费提供体验。元宝APP主打实用AI,强调易用性,其背后的hunyuan-vision模型已扩展至万亿参数规模,覆盖文本、多模态理解和生成等能力。hunyuan-vision是首个基于MoE架构的多模态大模型,能处理高分辨率和长宽比的图片。

通过一系列测试,腾讯元宝展现了其在多模态能力方面的优势。在梗图表情包理解、照片内容识别、视觉错觉挑战等方面,元宝均能准确理解并给出合理答案。在实用场景测试中,元宝能快速读取财报摘要、学术图表,并在行测找规律题中给出正确答案。

腾讯元宝APP的特色在于其多端同步能力,用户可以在APP、小程序和网页中使用,聊天记录可实现同步。元宝的多模态理解能力覆盖了文档截图、人像风景、收银小票等多种场景,能基于图片内容给出理解和分析,并生成满足用户需求的内容。

腾讯元宝团队表示,未来将更多聚焦于融合模型的多模态能力,提升用户体验。近期,元宝已更新了深度搜索和深度长文阅读功能,减少了对提示工程的需求,实现了自动识别和一键触发。深度阅读功能整合了多模态理解能力,能从论文PDF中提取文字总结和图表。

总的来说,腾讯元宝在多模态大模型测评中表现出色,其背后的hunyuan-vision模型具有强大的多模态理解和生成能力。随着腾讯对模型能力的不断优化和产品体验的打磨,腾讯元宝有望在多模态场景下带来更多实用的功能和应用。

“极客训练营”

原文和模型


【原文链接】 阅读原文 [ 2287字 | 10分钟 ]
【原文作者】 量子位
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★★

© 版权声明
“绘蛙”

相关文章

暂无评论

暂无评论...