最强国产多模态刚刚易主！腾讯混元把GPT-4/Claude-3.5/Gemini-1.5都超了

AIGC动态1年前 (2024)发布 QbitAI

2,330 0 0

最强国产多模态刚刚易主！腾讯混元把GPT-4/Claude-3.5/Gemini-1.5都超了

文章摘要

【关键词】 多模态模型、腾讯hunyuan、元宝APP、多端同步、AI应用

在最新的中文多模态大模型测评基准SuperCLUE-V中，腾讯的hunyuan-vision和上海AI Lab的InternVL2-40B分别成为闭源和开源界的领跑者，表现出色，甚至在某些方面超越了谷歌的Gemini-1.5-Pro和Claude-3.5-Sonnet。尽管GPT-4o仍占据榜首，但国产模型与其差距已显著缩小。

腾讯的hunyuan-vision是腾讯混元大模型的多模态版本，目前已在腾讯元宝APP中免费提供体验。元宝APP主打实用AI，强调易用性，其背后的hunyuan-vision模型已扩展至万亿参数规模，覆盖文本、多模态理解和生成等能力。hunyuan-vision是首个基于MoE架构的多模态大模型，能处理高分辨率和长宽比的图片。

通过一系列测试，腾讯元宝展现了其在多模态能力方面的优势。在梗图表情包理解、照片内容识别、视觉错觉挑战等方面，元宝均能准确理解并给出合理答案。在实用场景测试中，元宝能快速读取财报摘要、学术图表，并在行测找规律题中给出正确答案。

腾讯元宝APP的特色在于其多端同步能力，用户可以在APP、小程序和网页中使用，聊天记录可实现同步。元宝的多模态理解能力覆盖了文档截图、人像风景、收银小票等多种场景，能基于图片内容给出理解和分析，并生成满足用户需求的内容。

腾讯元宝团队表示，未来将更多聚焦于融合模型的多模态能力，提升用户体验。近期，元宝已更新了深度搜索和深度长文阅读功能，减少了对提示工程的需求，实现了自动识别和一键触发。深度阅读功能整合了多模态理解能力，能从论文PDF中提取文字总结和图表。

总的来说，腾讯元宝在多模态大模型测评中表现出色，其背后的hunyuan-vision模型具有强大的多模态理解和生成能力。随着腾讯对模型能力的不断优化和产品体验的打磨，腾讯元宝有望在多模态场景下带来更多实用的功能和应用。