让OpenAI只领先5天,百川发布推理新模型,掀翻医疗垂域开源天花板

AIGC动态2小时前发布 QbitAI
71 0 0
让OpenAI只领先5天,百川发布推理新模型,掀翻医疗垂域开源天花板

 

文章摘要


【关 键 词】 医疗AI开源模型性能评测本土化应用技术创新

全球最强开源医疗模型Baichuan-M2-32B由中国百川智能发布,该模型在OpenAI的HealthBench评测集上超越GPT-OSS-120B等前沿模型,成为除GPT-5外唯一在困难测试集HealthBench-Hard超过32分的模型。其32B参数量设计支持RTX4090单卡部署,显著降低医疗机构私有化部署门槛。

评测表现方面,Baichuan-M2在标准版HealthBench全面领先开源及闭源模型,包括DeepSeek-R1、o3等。针对中国临床场景的专项测试显示,模型能精准遵循国内诊疗指南,如在肝癌案例中推荐符合CNLC指南的肝切除术,而GPT-OSS-120B则建议TACE治疗。这种本土化优势源于对国内病理数据和临床指南的系统性训练。

技术架构上,模型首创患者模拟器与Verifier系统,通过动态生成评分标准解决医疗对话噪声问题。采用RLVR强化学习方法,构建多阶段训练策略:先基础推理,再医疗专项,最后医学交互能力。改进的GRPO算法去除KL约束,引入动态长度奖励,提升训练效率。量化后模型精度接近无损,部署成本较同类降低57倍。

模型在保持通用能力的同时强化医疗专项性能,数学、指令遵循等基准超越Qwen3-32B。训练数据采用2:2:1的医疗/通用/数学配比,通过结构化改写和深度推理增强提升知识保真度。团队与北京儿童医院等机构合作,验证模型在真实场景的适用性。

当前AI医疗面临验证复杂、部署成本高等挑战,Baichuan-M2通过可验证性框架、轻量化设计等技术第一性原理应对。作为国内首个专注医疗的大模型公司,百川的开源策略加速了行业解决方案落地。随着全球AI巨头加码医疗赛道,该模型的发布标志着中国在垂直领域的技术突破进入新阶段。

原文和模型


【原文链接】 阅读原文 [ 4290字 | 18分钟 ]
【原文作者】 量子位
【摘要模型】 deepseek/deepseek-v3-0324
【摘要评分】 ★★★★★

© 版权声明
“绘蛙”

相关文章

“极客训练营”

暂无评论

暂无评论...