标签:模型评测

国产推理大模型决战2025考研数学,看看谁第一个上岸?

随着2025年研究生考试的结束,考研数学真题成为了测试大语言模型,尤其是推理模型深度思考能力的重要工具。过去,大语言模型在数学问题上的表现并不理想,但...

清华SuperBench全球测评出炉,Claude 3拿下多个冠军!合成数据才是人类未来?

清华大学SuperBench团队最近发布了新一轮的全球大模型评测结果。在语义理解、智能体能力和代码能力三个测评中,Claude 3模型表现出色,拿下两个第一名,并在...

清华系面壁MiniCPM:国产AI模型新突破,2B小钢炮成本效率双优

面壁MiniCPM模型是一款由清华系创业团队面壁智能发布的人工智能模型,具有24亿参数。该模型在多项AI评测中取得了领先成绩,成功挑战了70亿参数的国际大模型Mi...