标签:模型弱点

斯坦福打脸大模型数学水平:题干一改就集体降智,强如o1也失准,能力涌现怕不是检索题库

斯坦福大学的研究揭示了大型语言模型(LLMs)在数学推理任务中的一个显著弱点:仅通过改变题目中的变量名称和取值范围,就能显著降低模型的准确率。这一发现...