文章摘要
【关 键 词】 医学研究、AI模型、错误检测、数据安全、人机比较
微软和华盛顿大学的研究团队在医学领域的一项研究中意外曝光了OpenAI模型的参数,包括GPT-4、GPT-4o、o1系列模型。其中,GPT-4参数约1.76万亿,GPT-4o参数约2000亿,GPT-4o mini参数约80亿。研究人员指出这些参数均为估算值。此外,论文中还发布了一个名为MEDEC1的评估基准,专为临床笔记医疗错误检测和纠正而设计,涵盖了五种类型的错误,包括诊断、管理、治疗、药物治疗和致病因子。MEDEC的数据来源收集了来自三家美国医院系统的488篇临床笔记,总计3,848篇临床文本,这些数据此前未被任何LLM接触过,确保了评估的真实性和可靠性。
研究团队对当前最先进的模型,包括o1-preview、GPT-4、Claude 3.5 Sonnet、Gemini 2.0 Flash等,在医疗错误检测和纠正任务中进行了全面测试,并邀请了两位专业医生进行相同的错误检测任务,将AI与人类医生结果进行比较。结果显示,最新LLM在医疗错误检测和纠正方面表现不俗,但与人类医生相比,AI还是有着明显的差距,这也印证了MEDEC是一个具有充分挑战性的评估基准。
此外,美国医疗机构的调查研究显示,每5位阅读临床笔记的患者中,就有一位报告发现了错误,其中40%的患者认为这些错误是严重的。这些错误类别与当前或过去的诊断相关。随着越来越多的医学文档任务由LLM完成,如何降低LLM在医学文档任务中产生错误的风险,确保其安全性,成为了一个重要课题。
原文和模型
【原文链接】 阅读原文 [ 4375字 | 18分钟 ]
【原文作者】 新智元
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★☆☆☆
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...