微软论文意外「走光」，OpenAI参数全泄密！GPT-4o仅200B，o1 300B

1,633 0 0

文章摘要

微软和华盛顿大学的研究团队在医学领域的一项研究中意外曝光了OpenAI模型的参数，包括GPT-4、GPT-4o、o1系列模型。其中，GPT-4参数约1.76万亿，GPT-4o参数约2000亿，GPT-4o mini参数约80亿。研究人员指出这些参数均为估算值。此外，论文中还发布了一个名为MEDEC1的评估基准，专为临床笔记医疗错误检测和纠正而设计，涵盖了五种类型的错误，包括诊断、管理、治疗、药物治疗和致病因子。MEDEC的数据来源收集了来自三家美国医院系统的488篇临床笔记，总计3,848篇临床文本，这些数据此前未被任何LLM接触过，确保了评估的真实性和可靠性。

研究团队对当前最先进的模型，包括o1-preview、GPT-4、Claude 3.5 Sonnet、Gemini 2.0 Flash等，在医疗错误检测和纠正任务中进行了全面测试，并邀请了两位专业医生进行相同的错误检测任务，将AI与人类医生结果进行比较。结果显示，最新LLM在医疗错误检测和纠正方面表现不俗，但与人类医生相比，AI还是有着明显的差距，这也印证了MEDEC是一个具有充分挑战性的评估基准。

此外，美国医疗机构的调查研究显示，每5位阅读临床笔记的患者中，就有一位报告发现了错误，其中40%的患者认为这些错误是严重的。这些错误类别与当前或过去的诊断相关。随着越来越多的医学文档任务由LLM完成，如何降低LLM在医学文档任务中产生错误的风险，确保其安全性，成为了一个重要课题。