哈佛、麻省推出面向医学多模态助手—PathChat

976 0 0

文章摘要

哈佛医学院、麻省理工学院和俄亥俄州立大学韦克斯纳医学中心的研究人员联合开发了一款名为PathChat的多模态 AI助手，专为医学领域设计。PathChat通过整合视觉编码器、多模态投影模块和大型语言模型，能够理解并分析复杂的医学图像，并基于多轮文本对话，为临床医生和医护人员提供精准和个性化的病理学指导。

视觉编码器作为PathChat的核心模块之一，负责将高分辨率病理学图像转换成机器可处理的低维特征表示，采用自监督学习方法从未标记的图像中学习。多模态投影模块作为视觉与语言的桥梁，通过注意力池化层和多层感知器将视觉特征图转换为固定长度的图像标记序列，并将这些图像标记映射到与语言模型的嵌入维度相同的空间。

PathChat使用的是基于Transformer架构的自回归语言模型Llama 2家族的130亿参数变体，包含40层Transformer，每层有40个注意力头，嵌入维度为5,120，隐藏维度为13,824，并采用了旋转位置编码，能够处理长达4,096的上下文序列。

PathChat的训练过程分为两个阶段：预训练阶段和指令微调阶段。在预训练阶段，大语言模型的权重被冻结，只有多模态投影模块接收参数更新。该阶段使用大约100,000对图像和字幕对，让投影模块学会如何将视觉编码器的输出映射到与大语言模型的文本嵌入空间相同的维度。在指令微调阶段，大语言模型和投影模块共同接受端到端的训练，以生成对多样化指令的响应。

测试结果表明，PathChat在多项选择诊断问题和开放性问答场景中表现出色，尤其在综合考量图像和临床情境的诊断问题上，其准确率超出其他模型20%以上。PathChat在多种应用场景中展现出巨大潜力，如分析不同器官部位的病理图像、参与人机交互的鉴别诊断过程，尤其在资源有限或处理复杂情况时，通过与病人的多轮深度对话，辅助医生作出更精确的诊断。