标签:基准测试

Qwen3小升级即SOTA,开源大模型王座快变中国内部赛了

开源大模型领域近期迎来了显著的技术进展,尤其是中国市场的竞争愈发激烈。Kimi K2作为一款备受关注的模型,其1T的总参数量在短时间内被Qwen3的新版本超越。Q...

刚刚,奥特曼放出ChatGPT「统一智能体」!惊呼真AGI,最卷打工人来了

ChatGPT agent的发布标志着人工智能领域的一次重大突破,它首次将Operator、Deep Research和ChatGPT三大技术优势无缝融合,形成了一个统一的智能体系统。这一...

刚刚,OpenAI通用智能体ChatGPT Agent正式登场

OpenAI最新发布的ChatGPT Agent标志着人工智能技术迈入新阶段。这一通用智能体能够自主规划并调用多种工具完成复杂任务,包括自动浏览日历、生成可编辑PPT、...

7个月翻一番!AI agent能力飙升,METR报告揭示指数级进化规律

根据非营利研究机构METR最新发布的报告,AI智能体的能力呈现出一种“摩尔定律”式的增长趋势,平均每七个月其可完成任务的time horizon就会翻一番。这一规律已...

新“SOTA”推理模型避战Qwen和R1?欧版OpenAI被喷麻了

Mistral AI发布了其首款推理模型Magistral,该模型旨在提升多语言推理能力和可解释性。Magistral分为两个版本:Magistral Small,一个24B参数的开源权重版本...

字节跳动开源多模态AI Agent—UI-TARS-1.5

字节跳动开源了多模态AI Agent UI-TARS的最新1.5版本,该版本在多个基准测试中表现出色,展现了其强大的通用性和扩展能力。在计算机使用方面,UI-TARS-1.5在O...

强化学习带来的改进只是「噪音」?最新研究预警:冷静看待推理模型的进展

「推理」已成为语言模型的下一个主要前沿领域,学术界和工业界在探索模型推理性能提升的过程中,提出了一个核心问题:什么方法有效,什么方法无效?近期研究...

Llama 4 先后被 DeepSeek、英伟达暴击,Meta 不再是大模型开源“霸主”了

英伟达于4月8日发布了最新大语言模型Llama3.1 Nemotron Ultra 253B,该模型基于Meta的Llama-3.1-405B-Instruct构建,并通过神经架构搜索(NAS)技术进行了深...

OpenAI 发布大模型现实世界软件工程基准测试 SWE-Lancer

OpenAI 最近发布了 SWE-Lancer 基准测试,旨在评估大语言模型在现实世界自由职业软件工程任务中的表现。该基准测试的数据集包含来自 Upwork 的 1400 多个任务...

高中生用「我的世界」评测SOTA模型!Claude暂时领先,DeepSeek紧随其后

AI模型在复杂基准测试中表现出色,却在简单问题上频频出错,这种反差促使创意评测的兴起。例如,高中生Adi Singh开发的MC-Bench利用Minecraft的“竞技场”模式...
1 2 3 4