标签:统计显著性

Anthropic新研究:用统计思维评估大模型

在大语言模型(LLM)的评估领域,传统的基准测试方法往往忽视了统计显著性,仅依赖于表面的得分高低来判断模型性能,这可能导致不准确的结论。为了解决这一问...