标签:评测基准
智元机器人发布并开源首个机器人动作序列驱动的世界模型
智元机器人近日发布了具身智能领域的两项重要突破:全球首个基于机器人动作序列驱动的具身世界模型 EVAC(EnerVerse-AC),以及具身世界模型评测基准 EWMBenc...
DeepSeek-R1、o1都在及格线挣扎!字节开源全新知识推理测评集,覆盖285个学科
字节跳动豆包大模型团队联合M-A-P开源社区推出全新评测基准SuperGPQA,旨在解决当前大模型通用知识推理评估体系的局限性。该基准覆盖285个研究生级学科,包含...
大语言模型评测是怎么被玩儿烂的?我们跟知情人聊了一个下午
大模型评测面临着一些挑战,包括评测成本和时间成本高,以及数据泄露导致的过拟合问题。一些大模型公司通过刷题来提高分数,这已经成为公开的秘密。此外,评...