标签:基准测试
高中生用「我的世界」评测SOTA模型!Claude暂时领先,DeepSeek紧随其后
AI模型在复杂基准测试中表现出色,却在简单问题上频频出错,这种反差促使创意评测的兴起。例如,高中生Adi Singh开发的MC-Bench利用Minecraft的“竞技场”模式...
AMD开源30亿小参数模型,媲美Qwen-2.5
AMD在官网开源了最新的小参数模型Instella-3B,该模型基于AMD Instinct™ MI300X GPU从头训练,展现了AMD GPU在训练高性能大模型方面的潜力。Instella-3B的性...
Manus引爆智能体复现潮!DeepSeek已被整合,项目挤满开源榜,海外大V排队求码
Manus的发布引发了智能体领域的广泛关注,带动了开源复现和商业闭源产品的快速发展。目前,两个开源项目——OpenManus和OWL——在Manus发布当天就推出了复现代码...
千页只需7块钱,Mistral发布世界最强文件扫描API,实测仍有缺陷
法国大模型独角兽 Mistral AI 近期推出了其光学字符识别(OCR)产品 Mistral OCR,号称是“世界上最好的 OCR 模型”。该模型以图像和 PDF 作为输入,能够以前所...
多元推理刷新「人类的最后考试」记录,o3-mini(high)准确率最高飙升到37%
近年来,DeepSeek R1、OpenAI o1/o3等大语言模型在数学和编程领域的推理能力取得显著进展,但在国际数学奥林匹克竞赛(IMO)组合问题、抽象推理语料库(ARC)...
刚刚,全球首个混合推理模型Claude 3.7降世!最强编程大脑暴击DeepSeek R1
Anthropic发布全球首款混合推理模型Claude 3.7 Sonnet,该模型通过独特的双模式架构实现了即时响应与深度思考的融合。在扩展思考模式下,模型通过自我反思机...
Grok3 来了,马斯克笑了,网站崩溃了
伊隆·马斯克领导的xAI团队正式发布新一代人工智能系统Grok3,宣称其综合能力达到行业领先水平。该系统包含基础模型、推理模型及首个智能体产品「Deep Search...
AI无法攻克的235道谜题!让o1、Gemini 2.0 Flash Thinking集体挂零
Scale AI、Center for AI Safety与MIT研究者联合推出的ENIGMAEVAL基准,通过1184道源自解谜寻宝竞赛的复杂题目,系统评估大语言模型的多模态推理能力。该基准...
重磅!微软开源最强小模型Phi-4,超GPT-4o、可商用
微软研究院近日开源了一款名为phi-4的小参数模型,该模型以其140亿参数的规模在多项基准测试中超越了包括OpenAI的GPT-4o在内的多个知名开闭源模型。phi-4在GP...
李飞飞谢赛宁:多模态LLM「空间大脑」觉醒,惊现世界模型雏形!
李飞飞和谢赛宁团队的最新研究发现,多模态大型语言模型(MLLM)展现出了记忆和回忆空间的能力,甚至出现了局部世界模型和空间意识的迹象。这项研究名为“空间...