行业大模型也不稳了？微软首席科学家撰文：仅利用提示词GPT-4就超越了专业领域模型的水平

AIGC动态2年前 (2024)更新 admin

2,260 0 0

作者信息

【原文作者】 AI工程化
【作者简介】 专注于AI领域（大模型、MLOPS/LLMOPS 、AI应用开发、AI infra）前沿产品技术信息和实践经验分享。
【微信号】 ai-engineering

行业大模型也不稳了？微软首席科学家撰文：仅利用提示词GPT-4就超越了专业领域模型的水平

文章摘要

微软首席科学家Eric Horvitz发布了一篇名为《The Power of Prompting》的博客文章，探讨了如何通过提示词工程提高GPT-4的性能。研究发现，在相同的基准上，利用提示词工程能让GPT-4的性能明显优于专门针对医疗应用进行微调的领先模型。此外，研究还表明，这种提示策略具有泛化性，可以从通用基础模型中有效地唤起特定领域的专业知识。

微软在三月份分享了一项关于GPT-4在医学挑战问题上的能力的研究，结果显示，通过简单的提示策略，通用模型可以应对一系列医学挑战问题。在11月底的进一步研究中，微软展示了一种称为”Medprompt”的方法，通过组合多种提示策略，有效地引导GPT-4在专业领域达到最佳性能。

这项研究在MedQA数据集上的得分率首次超过90%，并在MultiMedQA套件的所有九个基准数据集上都取得了最高的报告结果。与MedPaLM 2相比，MedQA的错误率降低了27%。

尽管业界普遍认为，要使通用基础模型在特定领域表现出色，必须进行以专业为中心的微调，但这种方法可能代价高昂且资源密集。而Medprompt研究表明，通过探索将通用模型转化为专业模型的提示可能性，可以将这些模型的优势扩展到新领域和新应用。

这一结论将对业内认知产生重大影响，可能会挑战专用模型的最后一块领地，并重新审视专业模型微调的命运。然而，微软目前发布的仅是一些测评数据集上的性能表现，后续可能还会有更多的详细解读和实践落地研究出现。