作者信息
【原文作者】 AI工程化
【作者简介】 专注于AI领域(大模型、MLOPS/LLMOPS 、AI应用开发、AI infra)前沿产品技术信息和实践经验分享。
【微 信 号】 ai-engineering
文章摘要
【关 键 词】 微软研究、GPT-4、提示策略、医学挑战、性能提升
微软首席科学家Eric Horvitz发布了一篇名为《The Power of Prompting》的博客文章,探讨了如何通过提示词工程提高GPT-4的性能。研究发现,在相同的基准上,利用提示词工程能让GPT-4的性能明显优于专门针对医疗应用进行微调的领先模型。此外,研究还表明,这种提示策略具有泛化性,可以从通用基础模型中有效地唤起特定领域的专业知识。
微软在三月份分享了一项关于GPT-4在医学挑战问题上的能力的研究,结果显示,通过简单的提示策略,通用模型可以应对一系列医学挑战问题。在11月底的进一步研究中,微软展示了一种称为”Medprompt”的方法,通过组合多种提示策略,有效地引导GPT-4在专业领域达到最佳性能。
这项研究在MedQA数据集上的得分率首次超过90%,并在MultiMedQA套件的所有九个基准数据集上都取得了最高的报告结果。与MedPaLM 2相比,MedQA的错误率降低了27%。
尽管业界普遍认为,要使通用基础模型在特定领域表现出色,必须进行以专业为中心的微调,但这种方法可能代价高昂且资源密集。而Medprompt研究表明,通过探索将通用模型转化为专业模型的提示可能性,可以将这些模型的优势扩展到新领域和新应用。
这一结论将对业内认知产生重大影响,可能会挑战专用模型的最后一块领地,并重新审视专业模型微调的命运。然而,微软目前发布的仅是一些测评数据集上的性能表现,后续可能还会有更多的详细解读和实践落地研究出现。
原文信息
【原文链接】 阅读原文
【原文字数】 851
【阅读时长】 3分钟