基准测试 | 第 2 页

AMD开源30亿小参数模型，媲美Qwen-2.5

AMD在官网开源了最新的小参数模型Instella-3B，该模型基于AMD Instinct™ MI300X GPU从头训练，展现了AMD GPU在训练高性能大模型方面的潜力。Instella-3B的性...

AIGC动态

6个月前

Manus引爆智能体复现潮！DeepSeek已被整合，项目挤满开源榜，海外大V排队求码

Manus的发布引发了智能体领域的广泛关注，带动了开源复现和商业闭源产品的快速发展。目前，两个开源项目——OpenManus和OWL——在Manus发布当天就推出了复现代码...

AIGC动态

6个月前

千页只需7块钱，Mistral发布世界最强文件扫描API，实测仍有缺陷

法国大模型独角兽 Mistral AI 近期推出了其光学字符识别（OCR）产品 Mistral OCR，号称是“世界上最好的 OCR 模型”。该模型以图像和 PDF 作为输入，能够以前所...

AIGC动态

6个月前

多元推理刷新「人类的最后考试」记录，o3-mini(high)准确率最高飙升到37％

近年来，DeepSeek R1、OpenAI o1/o3等大语言模型在数学和编程领域的推理能力取得显著进展，但在国际数学奥林匹克竞赛（IMO）组合问题、抽象推理语料库（ARC）...

AIGC动态

6个月前

刚刚，全球首个混合推理模型Claude 3.7降世！最强编程大脑暴击DeepSeek R1

Anthropic发布全球首款混合推理模型Claude 3.7 Sonnet，该模型通过独特的双模式架构实现了即时响应与深度思考的融合。在扩展思考模式下，模型通过自我反思机...

AIGC动态

7个月前

Grok3 来了，马斯克笑了，网站崩溃了

伊隆·马斯克领导的xAI团队正式发布新一代人工智能系统Grok3，宣称其综合能力达到行业领先水平。该系统包含基础模型、推理模型及首个智能体产品「Deep Search...

AIGC动态

7个月前

AI无法攻克的235道谜题！让o1、Gemini 2.0 Flash Thinking集体挂零

Scale AI、Center for AI Safety与MIT研究者联合推出的ENIGMAEVAL基准，通过1184道源自解谜寻宝竞赛的复杂题目，系统评估大语言模型的多模态推理能力。该基准...

AIGC动态

7个月前

重磅！微软开源最强小模型Phi-4，超GPT-4o、可商用

微软研究院近日开源了一款名为phi-4的小参数模型，该模型以其140亿参数的规模在多项基准测试中超越了包括OpenAI的GPT-4o在内的多个知名开闭源模型。phi-4在GP...

AIGC动态

8个月前

李飞飞谢赛宁：多模态LLM「空间大脑」觉醒，惊现世界模型雏形！

李飞飞和谢赛宁团队的最新研究发现，多模态大型语言模型（MLLM）展现出了记忆和回忆空间的能力，甚至出现了局部世界模型和空间意识的迹象。这项研究名为“空间...

AIGC动态

9个月前

OpenAI甩王炸！发布新模型o3，一夜再次改变世界！

OpenAI在技术直播的最后一天发布了预览版模型o3，该模型在多个测试中表现出色。在AIME数学竞赛中，o3得分96.7分，仅错一题，达到了顶级数学家的水平。在ARCAG...

AIGC动态

9个月前

标签：基准测试

AMD开源30亿小参数模型，媲美Qwen-2.5

Manus引爆智能体复现潮！DeepSeek已被整合，项目挤满开源榜，海外大V排队求码

千页只需7块钱，Mistral发布世界最强文件扫描API，实测仍有缺陷

多元推理刷新「人类的最后考试」记录，o3-mini(high)准确率最高飙升到37％

刚刚，全球首个混合推理模型Claude 3.7降世！最强编程大脑暴击DeepSeek R1

Grok3 来了，马斯克笑了，网站崩溃了

AI无法攻克的235道谜题！让o1、Gemini 2.0 Flash Thinking集体挂零

重磅！微软开源最强小模型Phi-4，超GPT-4o、可商用

李飞飞谢赛宁：多模态LLM「空间大脑」觉醒，惊现世界模型雏形！

OpenAI甩王炸！发布新模型o3，一夜再次改变世界！

热门网址

标签：基准测试

Trae-AI IDE

极客训练营-扫码领取免费材料

讯飞文书-办公助手

有言AI-视频创作

热门网址