标签：评测基准

智元机器人发布并开源首个机器人动作序列驱动的世界模型

智元机器人近日发布了具身智能领域的两项重要突破：全球首个基于机器人动作序列驱动的具身世界模型 EVAC（EnerVerse-AC），以及具身世界模型评测基准 EWMBenc...

AIGC动态

4个月前

DeepSeek-R1、o1都在及格线挣扎！字节开源全新知识推理测评集，覆盖285个学科

字节跳动豆包大模型团队联合M-A-P开源社区推出全新评测基准SuperGPQA，旨在解决当前大模型通用知识推理评估体系的局限性。该基准覆盖285个研究生级学科，包含...

AIGC动态

6个月前

大语言模型评测是怎么被玩儿烂的？我们跟知情人聊了一个下午

大模型评测面临着一些挑战，包括评测成本和时间成本高，以及数据泄露导致的过拟合问题。一些大模型公司通过刷题来提高分数，这已经成为公开的秘密。此外，评...

AIGC动态

2年前 (2024)