百度开源视觉理解模型Qianfan-VL！全尺寸领域增强+全自研芯片计算

29 0 0

文章摘要

【关键词】 百度智能云、视觉模型、Qianfan-VL、模型开源、多模应用

百度智能云千帆正式推出并全面开源全新视觉理解模型 Qianfan-VL，该系列包含 3B、8B 和 70B 三个尺寸版本，是面向企业级多模态应用场景深度优化的模型。

模型研发与特点：由百度智能云千帆模型研发团队基于开源模型开发，在百度自研昆仑芯 P800 上完成全流程计算任务。昆仑芯 P800 提供强大算力，支持单任务 5000 卡规模并行计算。其特点有：多尺寸模型能满足不同场景需求；8B 和 70B 模型支持激活思维链能力，覆盖多种场景；OCR 与文档理解能力增强。

模型性能与效果：在通用能力基准测试中，模型性能随参数规模增大显著提升，在专业问答、多模态任务等测试中表现出色。在 OCR 与文档理解基准测试里，具备全场景识别和复杂版面文档理解能力，成绩优异且随参数提升持续向好。8B 和 70B 模型在数学解题基准测试中，通过激活思维链能力，在复杂推理场景表现卓越，成绩优于主流模型且参数越大越好。

模型架构设计与技术特色：通过先进多模态架构设计、持续预训练和三大技术创新，实现领域增强的通用视觉 – 语言能力。包括创新的四阶段训练策略、构建大规模数据合成管线以及基于昆仑芯 P800 构建高效计算系统。

模型应用场景：除了 OCR 识别、数学推理、文档理解场景，还可应用于图表分析、视频理解等场景，均呈现卓越效果。

百度智能云表示，Qianfan-VL 系列模型开源是“把模型放进真实生产力场景”的第一步，未来会不断推出全新产业级模型助力 AI 技术在各行业落地。即日起至 10 月 10 日，可在百度智能云千帆平台免费体验 8B、70B 模型。