文章摘要
【关 键 词】 多模态、人工智能、图像处理、语言支持、开源模型
法国开源大模型平台Mistral.ai最近开源了超大多模态模型Pixtral Large,该模型拥有1240亿参数,支持128K上下文,并能理解文本、图表、图像等。Pixtral Large支持中文、法文、英文等十多种主流语言,并且在多个基准测试中超越了GPT-4o、Gemini-1.5 Pro等模型,成为目前最强的开源多模态模型。
Pixtral Large基于Mistral Large 2开发,包含1230亿参数的多模态解码器和10亿参数的视觉编码器。多模态解码器负责整合图像信息和文本数据,而视觉编码器则将图像转换为模型能理解的高维特征表示。技术层面上,Pixtral Large的视觉编码器采用变换器架构和自注意力机制,有效处理不同分辨率和宽高比的图像。此外,Pixtral Large还采用了序列打包技术和128K的上下文窗口,提高了多图像数据的处理效率和长上下文数据的处理能力。
Mistral.ai还发布了多模态AI助手le Chat,该助手支持PDF理解、网络搜索、Canvas、AI Agent、图片生成等功能。Le Chat引入了网络搜索和引用功能,允许用户直接搜索互联网信息并获取引用链接的答案。Canvas功能支持想法构思和内联编辑,提高了创意工作的效率。Le Chat还能处理大型PDF文档和图像,分析和总结文档中的图表、表格、图示、文本、公式和方程等内容。与Black Forest Labs合作,Le Chat整合了图像生成技术Flux Pro,允许用户生成高质量的图像。AI Agent功能允许用户编码工作流程并共享,实现工作流管理和自动化。Le Chat通过投机性编辑技术提高了响应速度,并提供了一个完全集成的平台,简化了工作流程。
原文和模型
【原文链接】 阅读原文 [ 1457字 | 6分钟 ]
【原文作者】 AIGC开放社区
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★☆☆☆☆