刚刚，OpenAI开源SimpleQA！轻松检测、校准大模型能力

2,027 0 0

文章摘要

OpenAI最新开源的SimpleQA 基准测试集旨在帮助开发者检测和校准大型语言模型（LLM）的真实性能力。该测试集特别设计来挑战高级模型如GPT-4，仅包含模型至少有一次尝试失败的问题，以揭示模型的局限性并推动其发展。SimpleQA的数据收集阶段由两名独立的AI训练员确定问题和参考答案，并要求提供支持答案的网页链接以确保答案的可靠性。问题设计简单明确，避免模糊性和歧义性，使得评估易于操作且结果稳定可靠。数据集包含4326个问题，覆盖历史、科学技术、艺术等多个领域，全面检验模型在不同知识领域的事实性回答能力。

SimpleQA还具备校准测量功能，通过询问模型对其答案的信心，研究者可以了解模型是否知道它们知道什么，这是一个重要的校准现象。OpenAI利用SimpleQA对多个前沿模型进行了测试，结果显示较大模型通常具有更高的性能，但即使是前沿模型在SimpleQA上的表现也并非完美。例如，GPT-4o在回答一些问题时能够给出较高比例的正确答案，但仍有部分错误回答和未尝试回答的情况。同时，通过测量模型的校准情况，发现模型虽然有一定的信心概念，但普遍存在高估自己信心的问题，模型的信心水平与实际回答的准确性之间存在差距。SimpleQA的引入可以显著提升我们对语言模型在事实性领域表现的理解，准确的数据对于信任人工智能系统至关重要。