发力了,Mistral对标ChatGPT全面升级le Chat,还祭出超大杯多模态模型

发力了,Mistral对标ChatGPT全面升级le Chat,还祭出超大杯多模态模型

 

文章摘要


【关 键 词】 多模态图像理解AI模型开源性能领先

Mistral AI近期推出了其多模态家族的新成员Pixtral Large,这是一个基于124B开放权重构建的超大杯基础模型,具备顶尖的图像理解能力,能够理解文档、图表和自然图像,同时保持Mistral Large 2的纯文本理解能力。Pixtral Large的发布使得Mistral AI的免费聊天机器人le Chat得到了升级,新增了图像生成、网络搜索和交互式画布功能,全面对标ChatGPT,并且所有功能都以免费测试版的形式开放。

Pixtral Large是一个开源多模态大模型,可以根据Mistral研究许可证(MRL)用于研究和教育用途,同时根据Mistral商业许可证用于商业目的的实验、测试和生产。它包括一个1230亿参数解码器和一个10亿参数视觉编码器,使其在文本和视觉数据处理方面均表现出色。Pixtral Large的上下文窗口为128K,至少可以处理30张高分辨率图像或大约一本300页的书,这相当于领先的OpenAI GPT系列模型的能力。

在性能方面,Pixtral Large在多种基准上展现出了最先进的性能,非常适合图表解释、文档分析和图像理解等任务。例如,在MathVista基准上,Pixtral Large实现了69.4%的准确率,优于所有其他模型。在ChartQA和DocVQA基准上,Pixtral Large超越了GPT-4o和Gemini-1.5 Pro。Pixtral Large在MM-MT-Bench上也展示了强有力的竞争力,优于Claude-3.5 Sonnet(新版)、Gemini-1.5 Pro和GPT-4o(最新版)。

Pixtral Large的发布,也让le Chat的能力上升到了一个新的高度。le Chat现在可以处理大型、复杂的PDF文档和图像,比如一篇理论文献的所有内容——图形、表格、图表、文本、公式、方程式。此外,le Chat还新增了实时的网络搜索和新的Canvas界面,使得用户可以和Mistral LLM合作完成共享输出,不再局限于双向对话。Mistral AI与SD作者团队成立的Black Forest Labs也达成了合作,因此le Chat拥有了高质量的图像生成能力。

豆包-智能助手

原文和模型


【原文链接】 阅读原文 [ 1473字 | 6分钟 ]
【原文作者】 机器之心
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★☆☆☆

© 版权声明

相关文章

暂无评论

暂无评论...