标签:SimpleQA

刚刚,OpenAI开源SimpleQA!轻松检测、校准大模型能力

OpenAI最新开源的SimpleQA基准测试集旨在帮助开发者检测和校准大型语言模型(LLM)的真实性能力。该测试集特别设计来挑战高级模型如GPT-4,仅包含模型至少有...