标签:基准测试
OpenAI甩王炸!发布新模型o3,一夜再次改变世界!
OpenAI在技术直播的最后一天发布了预览版模型o3,该模型在多个测试中表现出色。在AIME数学竞赛中,o3得分96.7分,仅错一题,达到了顶级数学家的水平。在ARCAG...
科研也完了,AI暴虐170位人类专家!Nature子刊:大模型精准预测研究结果,准确率高达81%
伦敦大学学院(UCL)的研究人员在Nature Human Behaviour期刊上发表了一项研究,该研究通过一个名为BrainBench的前瞻性基准测试,评估了大型语言模型在神经科...
仅仅一天,Gemini就夺回了GPT-4o拿走的头名
谷歌与OpenAI在人工智能领域的竞争愈发激烈。一周前,谷歌的Gemini-Exp-1114模型超越GPT-4o,成为Arena榜单的首位。然而,GPT-4o的更新很快重新夺回榜首。紧...
国产模型指令跟随全球第一!来自LeCun亲推的「最难作弊」大模型新榜单
国内初创公司阶跃星辰的万亿参数语言大模型Step-2-16k-202411在LiveBench榜单上取得显著成绩,位列全球第五、国内第一。LiveBench是由图灵奖得主杨立昆联合纽...
空间智能版ImageNet来了!李飞飞吴佳俊团队出品
斯坦福大学李飞飞和吴佳俊团队推出了HourVideo,一个旨在评估多模态模型对长达一小时视频理解能力的基准数据集。HourVideo包含500个来自Ego4D数据集的第一人...
刚刚,OpenAI开源SimpleQA!轻松检测、校准大模型能力
OpenAI最新开源的SimpleQA基准测试集旨在帮助开发者检测和校准大型语言模型(LLM)的真实性能力。该测试集特别设计来挑战高级模型如GPT-4,仅包含模型至少有...
英伟达开源最新大模型Nemotron 70B后,只有OpenAI o1一个对手了
英伟达最近开源了一款名为Llama-3.1-Nemotron-70B-Instruct的大型语言模型,该模型在性能上超越了OpenAI的GPT-4o和Anthropic的Claude-3.5 sonnet等竞争对手。...
英伟达开源新王登基!70B刷爆SOTA,击败GPT-4o只服OpenAI o1
英伟达最近开源了一款名为Nemotron-70B的AI模型,该模型在多个基准测试中超越了包括GPT-4和Claude 3.5 Sonnet在内的140多个开闭源模型,仅次于OpenAI的o1模型...
「世界开源新王」跌落神坛?重测跑分暴跌实锤造假,2人团队光速「滑跪」
Hyperwrite AI的联合创始人兼CEO Matt Shumer在9月5日宣布了一款名为Reflection 70B的AI模型,该模型基于Meta的开源Llama 3.1-70B进行了微调,并声称其性能可...
MMMU华人团队更新Pro版!多模态基准升至史诗级难度:过滤纯文本问题、引入纯视觉问答
新智元报道了多模态大型语言模型(MLLMs)在多学科多模态理解和推理(MMMU)基准测试中的最新进展。尽管这些模型在排行榜上的表现不断提升,但对其是否真正理...