让OpenAI只领先5天，百川发布推理新模型，掀翻医疗垂域开源天花板

487 0 0

文章摘要

全球最强开源医疗模型Baichuan-M2-32B由中国百川智能发布，该模型在OpenAI的HealthBench评测集上超越GPT-OSS-120B等前沿模型，成为除GPT-5外唯一在困难测试集HealthBench-Hard超过32分的模型。其32B参数量设计支持RTX4090单卡部署，显著降低医疗机构私有化部署门槛。

评测表现方面，Baichuan-M2在标准版HealthBench全面领先开源及闭源模型，包括DeepSeek-R1、o3等。针对中国临床场景的专项测试显示，模型能精准遵循国内诊疗指南，如在肝癌案例中推荐符合CNLC指南的肝切除术，而GPT-OSS-120B则建议TACE治疗。这种本土化优势源于对国内病理数据和临床指南的系统性训练。

技术架构上，模型首创患者模拟器与Verifier系统，通过动态生成评分标准解决医疗对话噪声问题。采用RLVR强化学习方法，构建多阶段训练策略：先基础推理，再医疗专项，最后医学交互能力。改进的GRPO算法去除KL约束，引入动态长度奖励，提升训练效率。量化后模型精度接近无损，部署成本较同类降低57倍。

模型在保持通用能力的同时强化医疗专项性能，数学、指令遵循等基准超越Qwen3-32B。训练数据采用2:2:1的医疗/通用/数学配比，通过结构化改写和深度推理增强提升知识保真度。团队与北京儿童医院等机构合作，验证模型在真实场景的适用性。

当前AI医疗面临验证复杂、部署成本高等挑战，Baichuan-M2通过可验证性框架、轻量化设计等技术第一性原理应对。作为国内首个专注医疗的大模型公司，百川的开源策略加速了行业解决方案落地。随着全球AI巨头加码医疗赛道，该模型的发布标志着中国在垂直领域的技术突破进入新阶段。