元象首个多模态大模型 XVERSE-V 开源,刷新权威大模型榜单,支持任意宽高比输入
文章摘要
【关 键 词】 多模态大模型、性能领先、全开源、商用免费、应用广泛
元象公司发布了一款名为XVERSE-V的多模态大模型,该模型支持任意宽高比的图像输入,并在多项权威多模态评测中取得了领先效果。XVERSE-V模型全开源,允许无条件免费商用,旨在推动中小企业、研究者和开发者的研发和应用创新。在综合能力测评MMBench中,XVERSE-V超越了多个知名的开源和闭源模型,包括谷歌、阿里巴巴和Claude-3V Sonnet等。
XVERSE-V模型的一个创新之处在于其能够融合整体和局部的图像表示,这使得模型能够识别和分析图像中的细微特征,提供更清晰、更准确的理解。这种处理方式使得XVERSE-V可以应用于多种领域,如全景图识别、卫星图像分析和古文物扫描等。
元象公司还提供了多种途径供用户免费下载XVERSE-V模型,包括Hugging Face、ModelScope魔搭、Github等平台,并提供了联系方式以便于商业合作。元象公司在开源领域的贡献包括国内最早开源的最大参数模型、全球最早开源的最长上下文模型和国际前沿的MoE模型。此外,元象大模型已经与多个腾讯产品进行了深度合作与应用探索,为多个领域提供了创新领先的用户体验。
XVERSE-V模型在实际应用中表现出色,不仅在基础能力上优异,还在多个实际场景中展现了强大的表现力。这些场景包括图表理解、视障真实场景辅助、看图内容创作、教育解题、百科解答、代码撰写、自动驾驶和情感理解与识别等。在真实视障场景测试集VizWiz中,XVERSE-V的表现超过了几乎所有主流的开源多模态大模型。
元象公司成立于2021年,是一家国内领先的AI与3D技术服务公司,致力于打造AI驱动的3D内容生产与消费一站式平台。公司的愿景是“定义你的世界”,创始人姚星是前腾讯副总裁和腾讯AI Lab创始人。元象公司已获得超过2亿美元的融资,投资机构包括腾讯、高榕资本等知名投资方。
原文和模型
【原文链接】 阅读原文 [ 2143字 | 9分钟 ]
【原文作者】 AI科技评论
【摘要模型】 gpt-4
【摘要评分】 ★★★★★