基准测试 | 学习AIGC

重磅！微软开源最强小模型Phi-4，超GPT-4o、可商用

微软研究院近日开源了一款名为phi-4的小参数模型，该模型以其140亿参数的规模在多项基准测试中超越了包括OpenAI的GPT-4o在内的多个知名开闭源模型。phi-4在GP...

AIGC动态

2周前

李飞飞谢赛宁：多模态LLM「空间大脑」觉醒，惊现世界模型雏形！

李飞飞和谢赛宁团队的最新研究发现，多模态大型语言模型（MLLM）展现出了记忆和回忆空间的能力，甚至出现了局部世界模型和空间意识的迹象。这项研究名为“空间...

AIGC动态

4周前

OpenAI甩王炸！发布新模型o3，一夜再次改变世界！

OpenAI在技术直播的最后一天发布了预览版模型o3，该模型在多个测试中表现出色。在AIME数学竞赛中，o3得分96.7分，仅错一题，达到了顶级数学家的水平。在ARCAG...

AIGC动态

1个月前

科研也完了，AI暴虐170位人类专家！Nature子刊：大模型精准预测研究结果，准确率高达81%

伦敦大学学院（UCL）的研究人员在Nature Human Behaviour期刊上发表了一项研究，该研究通过一个名为BrainBench的前瞻性基准测试，评估了大型语言模型在神经科...

AIGC动态

2个月前

仅仅一天，Gemini就夺回了GPT-4o拿走的头名

谷歌与OpenAI在人工智能领域的竞争愈发激烈。一周前，谷歌的Gemini-Exp-1114模型超越GPT-4o，成为Arena榜单的首位。然而，GPT-4o的更新很快重新夺回榜首。紧...

AIGC动态

2个月前

国产模型指令跟随全球第一！来自LeCun亲推的「最难作弊」大模型新榜单

国内初创公司阶跃星辰的万亿参数语言大模型Step-2-16k-202411在LiveBench榜单上取得显著成绩，位列全球第五、国内第一。LiveBench是由图灵奖得主杨立昆联合纽...

AIGC动态

2个月前

空间智能版ImageNet来了！李飞飞吴佳俊团队出品

斯坦福大学李飞飞和吴佳俊团队推出了HourVideo，一个旨在评估多模态模型对长达一小时视频理解能力的基准数据集。HourVideo包含500个来自Ego4D数据集的第一人...

AIGC动态

2个月前

刚刚，OpenAI开源SimpleQA！轻松检测、校准大模型能力

OpenAI最新开源的SimpleQA基准测试集旨在帮助开发者检测和校准大型语言模型（LLM）的真实性能力。该测试集特别设计来挑战高级模型如GPT-4，仅包含模型至少有...

AIGC动态

3个月前

英伟达开源最新大模型Nemotron 70B后，只有OpenAI o1一个对手了

英伟达最近开源了一款名为Llama-3.1-Nemotron-70B-Instruct的大型语言模型，该模型在性能上超越了OpenAI的GPT-4o和Anthropic的Claude-3.5 sonnet等竞争对手。...

AIGC动态

3个月前

英伟达开源新王登基！70B刷爆SOTA，击败GPT-4o只服OpenAI o1

英伟达最近开源了一款名为Nemotron-70B的AI模型，该模型在多个基准测试中超越了包括GPT-4和Claude 3.5 Sonnet在内的140多个开闭源模型，仅次于OpenAI的o1模型...

AIGC动态

3个月前

标签：基准测试

重磅！微软开源最强小模型Phi-4，超GPT-4o、可商用

李飞飞谢赛宁：多模态LLM「空间大脑」觉醒，惊现世界模型雏形！

OpenAI甩王炸！发布新模型o3，一夜再次改变世界！

科研也完了，AI暴虐170位人类专家！Nature子刊：大模型精准预测研究结果，准确率高达81%

仅仅一天，Gemini就夺回了GPT-4o拿走的头名

国产模型指令跟随全球第一！来自LeCun亲推的「最难作弊」大模型新榜单

空间智能版ImageNet来了！李飞飞吴佳俊团队出品

刚刚，OpenAI开源SimpleQA！轻松检测、校准大模型能力

英伟达开源最新大模型Nemotron 70B后，只有OpenAI o1一个对手了

英伟达开源新王登基！70B刷爆SOTA，击败GPT-4o只服OpenAI o1

热门网址

标签：基准测试

白日梦AI-视频创作

极客训练营-扫码领取免费材料

豆包MarsCode

有言AI-视频创作

热门网址