标签:基准测试
强化学习带来的改进只是「噪音」?最新研究预警:冷静看待推理模型的进展
「推理」已成为语言模型的下一个主要前沿领域,学术界和工业界在探索模型推理性能提升的过程中,提出了一个核心问题:什么方法有效,什么方法无效?近期研究...
Llama 4 先后被 DeepSeek、英伟达暴击,Meta 不再是大模型开源“霸主”了
英伟达于4月8日发布了最新大语言模型Llama3.1 Nemotron Ultra 253B,该模型基于Meta的Llama-3.1-405B-Instruct构建,并通过神经架构搜索(NAS)技术进行了深...
OpenAI 发布大模型现实世界软件工程基准测试 SWE-Lancer
OpenAI 最近发布了 SWE-Lancer 基准测试,旨在评估大语言模型在现实世界自由职业软件工程任务中的表现。该基准测试的数据集包含来自 Upwork 的 1400 多个任务...
高中生用「我的世界」评测SOTA模型!Claude暂时领先,DeepSeek紧随其后
AI模型在复杂基准测试中表现出色,却在简单问题上频频出错,这种反差促使创意评测的兴起。例如,高中生Adi Singh开发的MC-Bench利用Minecraft的“竞技场”模式...
AMD开源30亿小参数模型,媲美Qwen-2.5
AMD在官网开源了最新的小参数模型Instella-3B,该模型基于AMD Instinct™ MI300X GPU从头训练,展现了AMD GPU在训练高性能大模型方面的潜力。Instella-3B的性...
Manus引爆智能体复现潮!DeepSeek已被整合,项目挤满开源榜,海外大V排队求码
Manus的发布引发了智能体领域的广泛关注,带动了开源复现和商业闭源产品的快速发展。目前,两个开源项目——OpenManus和OWL——在Manus发布当天就推出了复现代码...
千页只需7块钱,Mistral发布世界最强文件扫描API,实测仍有缺陷
法国大模型独角兽 Mistral AI 近期推出了其光学字符识别(OCR)产品 Mistral OCR,号称是“世界上最好的 OCR 模型”。该模型以图像和 PDF 作为输入,能够以前所...
多元推理刷新「人类的最后考试」记录,o3-mini(high)准确率最高飙升到37%
近年来,DeepSeek R1、OpenAI o1/o3等大语言模型在数学和编程领域的推理能力取得显著进展,但在国际数学奥林匹克竞赛(IMO)组合问题、抽象推理语料库(ARC)...
刚刚,全球首个混合推理模型Claude 3.7降世!最强编程大脑暴击DeepSeek R1
Anthropic发布全球首款混合推理模型Claude 3.7 Sonnet,该模型通过独特的双模式架构实现了即时响应与深度思考的融合。在扩展思考模式下,模型通过自我反思机...
Grok3 来了,马斯克笑了,网站崩溃了
伊隆·马斯克领导的xAI团队正式发布新一代人工智能系统Grok3,宣称其综合能力达到行业领先水平。该系统包含基础模型、推理模型及首个智能体产品「Deep Search...