基准测试 | 第 3 页

科研也完了，AI暴虐170位人类专家！Nature子刊：大模型精准预测研究结果，准确率高达81%

伦敦大学学院（UCL）的研究人员在Nature Human Behaviour期刊上发表了一项研究，该研究通过一个名为BrainBench的前瞻性基准测试，评估了大型语言模型在神经科...

AIGC动态

9个月前

仅仅一天，Gemini就夺回了GPT-4o拿走的头名

谷歌与OpenAI在人工智能领域的竞争愈发激烈。一周前，谷歌的Gemini-Exp-1114模型超越GPT-4o，成为Arena榜单的首位。然而，GPT-4o的更新很快重新夺回榜首。紧...

AIGC动态

10个月前

国产模型指令跟随全球第一！来自LeCun亲推的「最难作弊」大模型新榜单

国内初创公司阶跃星辰的万亿参数语言大模型Step-2-16k-202411在LiveBench榜单上取得显著成绩，位列全球第五、国内第一。LiveBench是由图灵奖得主杨立昆联合纽...

AIGC动态

10个月前

空间智能版ImageNet来了！李飞飞吴佳俊团队出品

斯坦福大学李飞飞和吴佳俊团队推出了HourVideo，一个旨在评估多模态模型对长达一小时视频理解能力的基准数据集。HourVideo包含500个来自Ego4D数据集的第一人...

AIGC动态

10个月前

刚刚，OpenAI开源SimpleQA！轻松检测、校准大模型能力

OpenAI最新开源的SimpleQA基准测试集旨在帮助开发者检测和校准大型语言模型（LLM）的真实性能力。该测试集特别设计来挑战高级模型如GPT-4，仅包含模型至少有...

AIGC动态

11个月前

英伟达开源最新大模型Nemotron 70B后，只有OpenAI o1一个对手了

英伟达最近开源了一款名为Llama-3.1-Nemotron-70B-Instruct的大型语言模型，该模型在性能上超越了OpenAI的GPT-4o和Anthropic的Claude-3.5 sonnet等竞争对手。...

AIGC动态

11个月前

英伟达开源新王登基！70B刷爆SOTA，击败GPT-4o只服OpenAI o1

英伟达最近开源了一款名为Nemotron-70B的AI模型，该模型在多个基准测试中超越了包括GPT-4和Claude 3.5 Sonnet在内的140多个开闭源模型，仅次于OpenAI的o1模型...

AIGC动态

11个月前

「世界开源新王」跌落神坛？重测跑分暴跌实锤造假，2人团队光速「滑跪」

Hyperwrite AI的联合创始人兼CEO Matt Shumer在9月5日宣布了一款名为Reflection 70B的AI模型，该模型基于Meta的开源Llama 3.1-70B进行了微调，并声称其性能可...

AIGC动态

11个月前

MMMU华人团队更新Pro版！多模态基准升至史诗级难度：过滤纯文本问题、引入纯视觉问答

新智元报道了多模态大型语言模型（MLLMs）在多学科多模态理解和推理（MMMU）基准测试中的最新进展。尽管这些模型在排行榜上的表现不断提升，但对其是否真正理...

AIGC动态

1年前 (2024)

这就翻车了？Reflection 70B遭质疑基模为Llama 3，作者：重新训练

AI写作初创公司HyperWrite开发的新模型Reflection 70B在开源大模型社区引起了广泛关注。该模型基于Meta Llama 3.1 70B Instruct构建，采用原始Llama chat格式...

AIGC动态

1年前 (2024)

标签：基准测试

科研也完了，AI暴虐170位人类专家！Nature子刊：大模型精准预测研究结果，准确率高达81%

仅仅一天，Gemini就夺回了GPT-4o拿走的头名

国产模型指令跟随全球第一！来自LeCun亲推的「最难作弊」大模型新榜单

空间智能版ImageNet来了！李飞飞吴佳俊团队出品

刚刚，OpenAI开源SimpleQA！轻松检测、校准大模型能力

英伟达开源最新大模型Nemotron 70B后，只有OpenAI o1一个对手了

英伟达开源新王登基！70B刷爆SOTA，击败GPT-4o只服OpenAI o1

「世界开源新王」跌落神坛？重测跑分暴跌实锤造假，2人团队光速「滑跪」

MMMU华人团队更新Pro版！多模态基准升至史诗级难度：过滤纯文本问题、引入纯视觉问答

这就翻车了？Reflection 70B遭质疑基模为Llama 3，作者：重新训练

热门网址

标签：基准测试

Trae-AI IDE

极客训练营-扫码领取免费材料

讯飞文书-办公助手

有言AI-视频创作

热门网址