标签:基准测试

重磅!微软开源最强小模型Phi-4,超GPT-4o、可商用

微软研究院近日开源了一款名为phi-4的小参数模型,该模型以其140亿参数的规模在多项基准测试中超越了包括OpenAI的GPT-4o在内的多个知名开闭源模型。phi-4在GP...

李飞飞谢赛宁:多模态LLM「空间大脑」觉醒,惊现世界模型雏形!

李飞飞和谢赛宁团队的最新研究发现,多模态大型语言模型(MLLM)展现出了记忆和回忆空间的能力,甚至出现了局部世界模型和空间意识的迹象。这项研究名为“空间...

OpenAI甩王炸!发布新模型o3,一夜再次改变世界!

OpenAI在技术直播的最后一天发布了预览版模型o3,该模型在多个测试中表现出色。在AIME数学竞赛中,o3得分96.7分,仅错一题,达到了顶级数学家的水平。在ARCAG...

科研也完了,AI暴虐170位人类专家!Nature子刊:大模型精准预测研究结果,准确率高达81%

伦敦大学学院(UCL)的研究人员在Nature Human Behaviour期刊上发表了一项研究,该研究通过一个名为BrainBench的前瞻性基准测试,评估了大型语言模型在神经科...

仅仅一天,Gemini就夺回了GPT-4o拿走的头名

谷歌与OpenAI在人工智能领域的竞争愈发激烈。一周前,谷歌的Gemini-Exp-1114模型超越GPT-4o,成为Arena榜单的首位。然而,GPT-4o的更新很快重新夺回榜首。紧...

国产模型指令跟随全球第一!来自LeCun亲推的「最难作弊」大模型新榜单

国内初创公司阶跃星辰的万亿参数语言大模型Step-2-16k-202411在LiveBench榜单上取得显著成绩,位列全球第五、国内第一。LiveBench是由图灵奖得主杨立昆联合纽...

空间智能版ImageNet来了!李飞飞吴佳俊团队出品

斯坦福大学李飞飞和吴佳俊团队推出了HourVideo,一个旨在评估多模态模型对长达一小时视频理解能力的基准数据集。HourVideo包含500个来自Ego4D数据集的第一人...

刚刚,OpenAI开源SimpleQA!轻松检测、校准大模型能力

OpenAI最新开源的SimpleQA基准测试集旨在帮助开发者检测和校准大型语言模型(LLM)的真实性能力。该测试集特别设计来挑战高级模型如GPT-4,仅包含模型至少有...

英伟达开源最新大模型Nemotron 70B后,只有OpenAI o1一个对手了

英伟达最近开源了一款名为Llama-3.1-Nemotron-70B-Instruct的大型语言模型,该模型在性能上超越了OpenAI的GPT-4o和Anthropic的Claude-3.5 sonnet等竞争对手。...

英伟达开源新王登基!70B刷爆SOTA,击败GPT-4o只服OpenAI o1

英伟达最近开源了一款名为Nemotron-70B的AI模型,该模型在多个基准测试中超越了包括GPT-4和Claude 3.5 Sonnet在内的140多个开闭源模型,仅次于OpenAI的o1模型...
1 2 3