
文章摘要
大模型在医疗领域的应用面临三大主要难题:医疗知识覆盖不足、幻觉风险高以及推理能力欠缺。为了解决这些问题,阿里巴巴达摩院的研究团队开源了统一多模态医学大模型灵枢。该模型通过多层次的数据源体系进行训练,包括多模态医疗数据、单模态医疗数据和通用领域数据。多模态医疗数据通过医学字幕数据和医学多模态指令数据,促进视觉与文本模态的语义对齐,支持模型学习多样化的医疗任务。单模态医疗数据则覆盖了医疗事实问答、医患对话等多种类型,为模型提供了丰富的训练基础。
在数据清洗环节,研究团队采用了多阶段精细化处理流程。首先通过图像过滤和感知哈希技术去除低质量和重复的图像内容,随后通过文本过滤排除不符合要求的样本。医学文本数据的清洗则聚焦于隐私保护和冗余消除,使用LLaMA-3.1-70B模型移除患者身份信息,并通过最小哈希局部敏感哈希进行跨数据集文本去重。这些步骤确保了训练数据的质量,为模型的性能提供了保障。
灵枢的框架基于Qwen2.5-VL,采用了四阶段强化训练方法:医疗浅层对齐、医疗深层对齐、医疗指令调优和医疗导向强化学习。在医疗浅层对齐阶段,模型通过小规模的医疗图像-文本对进行训练,初步建立了医疗影像与文本描述之间的对齐关系。医疗深层对齐阶段则进一步拓展和深化了这一关系,通过更大规模、更高质量的医疗图像-文本对数据进行端到端微调,使模型能够接触到更广泛的医疗视觉元素和复杂的医学知识。
医疗指令调优阶段通过大量的医疗指令数据微调模型,提升其对医疗领域特定任务指令的理解和执行能力。这些指令数据涵盖了诊断、临床检查、医学知识检索等多种医疗场景和任务类型,使模型能够生成准确、符合医疗规范的输出。最后,在医疗导向的强化学习阶段,研究团队探索了强化学习在提升模型医疗推理能力方面的应用,通过可验证奖励机制引导模型自主发现推理路径,避免过拟合和捷径学习问题。
通过这些方法,灵枢模型在医疗领域的应用能力得到了显著提升,为解决大模型在医疗领域的难题提供了有效的解决方案。
原文和模型
【原文链接】 阅读原文 [ 1388字 | 6分钟 ]
【原文作者】 AIGC开放社区
【摘要模型】 deepseek-v3
【摘要评分】 ★★★☆☆