标签:公平性

大模型权威测试被曝翻车!更偏袒GPT-4等闭源模型,连提示词都区别对待

MMLU-Pro,一个旨在衡量大型语言模型性能的权威测试,近期遭遇了信任危机。原本被认为能为前沿模型提供区分度的MMLU-Pro,现在被指出其评测方法存在偏向性,...