百度Qianfan-VL开源，纯国产自研昆仑芯跑出世界一流

59 0 0

文章摘要

百度全新视觉理解模型Qianfan – VL直接开源，该模型具有多方面优势与特点。

模型性能与应用表现出色：Qianfan – VL系列有3B、8B和70B三个版本，参数量不同对应不同应用场景。它是多模态大模型，具备OCR和教育场景深度优化两大核心能力。OCR实现全场景覆盖，能识别多种字体及复杂公式，还可抽取发票等单据信息；在K12教育场景，拍照解题等是其强项。跑分测试中，70B版本在ScienceQA接近满分，在CCBench中优势明显，在数学解题测试中碾压对手。

依托纯血国产芯片训练：支撑Qianfan – VL训练的是百度自研的昆仑芯P800芯片。2025年4月百度点亮国内首个全自研3万卡昆仑芯P800集群，模型训练在超5000张该芯片卡的集群完成。昆仑芯P800功耗低，其XPU – R架构采用“通算融合”技术，将计算和通信单元分开，提高芯片利用率。百度还推出“昆仑芯超节点”方案，提升带宽和单机训练性能。

独特的模型炼成方法：底层架构融合业界优秀成果，语言模型部分不同版本基于不同架构，视觉编码器用InternViT。训练采用创新的“四阶段训练管线”，包括跨模态对齐、通用知识注入、领域增强知识注入和后训练。第三阶段使用的专业数据由百度高精度数据合成管线生成。

目前，Qianfan – VL全系列模型已在GitHub、Hugging Face等平台全面开源，百度智能云的千帆平台也提供在线体验和部署服务。