
文章摘要
OpenAI 今天正式发布了全新的开源健康基准 HealthBench,旨在评估大模型在真实医疗场景中的表现。HealthBench 由 262 名医生共同开发,涵盖 5000 个多轮医疗对话,涉及 60 个国家、26 个专业,并支持多语言。该基准通过医生自定义的评分标准,全面考察模型在准确性、沟通质量、上下文感知等多个维度的能力。这一举措标志着 OpenAI 在医疗领域的深入布局,HealthBench 的开源特性使得所有人都可以使用这一工具,进一步推动 AI 在医疗领域的应用。
HealthBench 的核心是 Evals,即评估框架。OpenAI 的研究院和首席产品官(CPO)最近提到,AI 的下半场将从“解决问题”转向“定义问题”,在这一新阶段,评估(Evals)比训练更为重要。明确要解决什么问题,以及如何评估问题的解决效果,将成为未来 AI 发展的关键。HealthBench 的评估框架包括用户的问题、AI 的回复,以及针对回复的评分标准和等级。每个对话都有医生制定的详细评分标准,例如“答案是否包含关键事实”或“有没有用专业术语吓到患者”,每一项都有分值,模型的回复会被逐条打分,最后算出总分。这种标准化的评估方式不仅能量化 AI 的表现,还能直观对比不同模型和医生的差距,为后续模型优化提供了明确方向。
根据 HealthBench 的测试结果,OpenAI 对市面上流行的主要模型在医疗方面的表现进行了评估。其中,o3 是表现最好的模型,得分为 60%,其次是 Grok 3(54%)和 Gemini 2.5 Pro(52%)。Claude 3.7 的表现相对较差,这或许印证了 AI 下半场的推断,即模型需要在特定场景中进行微调,才能发挥更强的能力。尽管 OpenAI 的模型仍然是世界上最强大的模型之一,但与其他模型的差距正在逐渐缩小,这表明行业整体水平的提升。
HealthBench 的发布标志着 AI 评估标准向垂直领域的专业化迈进。与过去大多数关注通用大语言模型(LLM)表现的基准不同,HealthBench 更像是为医疗等垂直领域的 AI 代理量身打造的。在这些领域,准确性和实际场景的相关性远比“流畅对话”更为重要。HealthBench 的推出或许正是推动行业建立专业 AI 评估标准的开端,为医疗领域的 AI 应用提供了更为精准的评估工具。
总的来说,HealthBench 的发布不仅展示了 OpenAI 在医疗领域的战略布局,也为 AI 在垂直领域的应用提供了新的评估标准。通过开源的方式,HealthBench 将促进全球范围内的医疗 AI 技术发展,并为未来的模型优化和行业标准化奠定基础。
原文和模型
【原文链接】 阅读原文 [ 861字 | 4分钟 ]
【原文作者】 AI产品阿颖
【摘要模型】 deepseek-v3
【摘要评分】 ★★☆☆☆