标签:基准测试

国产模型指令跟随全球第一!来自LeCun亲推的「最难作弊」大模型新榜单

国内初创公司阶跃星辰的万亿参数语言大模型Step-2-16k-202411在LiveBench榜单上取得显著成绩,位列全球第五、国内第一。LiveBench是由图灵奖得主杨立昆联合纽...

空间智能版ImageNet来了!李飞飞吴佳俊团队出品

斯坦福大学李飞飞和吴佳俊团队推出了HourVideo,一个旨在评估多模态模型对长达一小时视频理解能力的基准数据集。HourVideo包含500个来自Ego4D数据集的第一人...

刚刚,OpenAI开源SimpleQA!轻松检测、校准大模型能力

OpenAI最新开源的SimpleQA基准测试集旨在帮助开发者检测和校准大型语言模型(LLM)的真实性能力。该测试集特别设计来挑战高级模型如GPT-4,仅包含模型至少有...

英伟达开源最新大模型Nemotron 70B后,只有OpenAI o1一个对手了

英伟达最近开源了一款名为Llama-3.1-Nemotron-70B-Instruct的大型语言模型,该模型在性能上超越了OpenAI的GPT-4o和Anthropic的Claude-3.5 sonnet等竞争对手。...

英伟达开源新王登基!70B刷爆SOTA,击败GPT-4o只服OpenAI o1

英伟达最近开源了一款名为Nemotron-70B的AI模型,该模型在多个基准测试中超越了包括GPT-4和Claude 3.5 Sonnet在内的140多个开闭源模型,仅次于OpenAI的o1模型...

「世界开源新王」跌落神坛?重测跑分暴跌实锤造假,2人团队光速「滑跪」

Hyperwrite AI的联合创始人兼CEO Matt Shumer在9月5日宣布了一款名为Reflection 70B的AI模型,该模型基于Meta的开源Llama 3.1-70B进行了微调,并声称其性能可...

MMMU华人团队更新Pro版!多模态基准升至史诗级难度:过滤纯文本问题、引入纯视觉问答

新智元报道了多模态大型语言模型(MLLMs)在多学科多模态理解和推理(MMMU)基准测试中的最新进展。尽管这些模型在排行榜上的表现不断提升,但对其是否真正理...

这就翻车了?Reflection 70B遭质疑基模为Llama 3,作者:重新训练

AI写作初创公司HyperWrite开发的新模型Reflection 70B在开源大模型社区引起了广泛关注。该模型基于Meta Llama 3.1 70B Instruct构建,采用原始Llama chat格式...

AWS Graviton 4,水平如何?

Graviton4相较于前代Graviton3在性能上实现了显著提升,其R8g实例据称比R7g实例性能高出30%。Graviton4配备了96个基于Armv9.0 ISA的Neoverse-V2内核,每个内...

GPT-4不是世界模型,LeCun双手赞同!ACL力证LLM永远无法模拟世界

根据新智元的报道,亚利桑那大学、微软、霍普金斯大学等机构最近联合发布了一篇论文,从实证角度对LLM作为世界模拟器的能力进行了否定。这项研究已经被ACL 20...
1 2