超GPT-4o，1240亿参数！最强开源多模态模型 Pixtral Large！

1,681 0 0

文章摘要

法国开源大模型平台Mistral.ai最近开源了超大多模态模型Pixtral Large，该模型拥有1240亿参数，支持128K上下文，并能理解文本、图表、图像等。Pixtral Large支持中文、法文、英文等十多种主流语言，并且在多个基准测试中超越了GPT-4o、Gemini-1.5 Pro等模型，成为目前最强的开源多模态模型。

Pixtral Large基于Mistral Large 2开发，包含1230亿参数的多模态解码器和10亿参数的视觉编码器。多模态解码器负责整合图像信息和文本数据，而视觉编码器则将图像转换为模型能理解的高维特征表示。技术层面上，Pixtral Large的视觉编码器采用变换器架构和自注意力机制，有效处理不同分辨率和宽高比的图像。此外，Pixtral Large还采用了序列打包技术和128K的上下文窗口，提高了多图像数据的处理效率和长上下文数据的处理能力。

Mistral.ai还发布了多模态AI助手le Chat，该助手支持PDF理解、网络搜索、Canvas、AI Agent、图片生成等功能。Le Chat引入了网络搜索和引用功能，允许用户直接搜索互联网信息并获取引用链接的答案。Canvas功能支持想法构思和内联编辑，提高了创意工作的效率。Le Chat还能处理大型PDF文档和图像，分析和总结文档中的图表、表格、图示、文本、公式和方程等内容。与Black Forest Labs合作，Le Chat整合了图像生成技术Flux Pro，允许用户生成高质量的图像。AI Agent功能允许用户编码工作流程并共享，实现工作流管理和自动化。Le Chat通过投机性编辑技术提高了响应速度，并提供了一个完全集成的平台，简化了工作流程。