标签：统计显著性

Anthropic新研究：用统计思维评估大模型

在大语言模型（LLM）的评估领域，传统的基准测试方法往往忽视了统计显著性，仅依赖于表面的得分高低来判断模型性能，这可能导致不准确的结论。为了解决这一问...

AIGC动态

8个月前