标签:基准测试
Qwen3小升级即SOTA,开源大模型王座快变中国内部赛了
开源大模型领域近期迎来了显著的技术进展,尤其是中国市场的竞争愈发激烈。Kimi K2作为一款备受关注的模型,其1T的总参数量在短时间内被Qwen3的新版本超越。Q...
刚刚,奥特曼放出ChatGPT「统一智能体」!惊呼真AGI,最卷打工人来了
ChatGPT agent的发布标志着人工智能领域的一次重大突破,它首次将Operator、Deep Research和ChatGPT三大技术优势无缝融合,形成了一个统一的智能体系统。这一...
刚刚,OpenAI通用智能体ChatGPT Agent正式登场
OpenAI最新发布的ChatGPT Agent标志着人工智能技术迈入新阶段。这一通用智能体能够自主规划并调用多种工具完成复杂任务,包括自动浏览日历、生成可编辑PPT、...
7个月翻一番!AI agent能力飙升,METR报告揭示指数级进化规律
根据非营利研究机构METR最新发布的报告,AI智能体的能力呈现出一种“摩尔定律”式的增长趋势,平均每七个月其可完成任务的time horizon就会翻一番。这一规律已...
新“SOTA”推理模型避战Qwen和R1?欧版OpenAI被喷麻了
Mistral AI发布了其首款推理模型Magistral,该模型旨在提升多语言推理能力和可解释性。Magistral分为两个版本:Magistral Small,一个24B参数的开源权重版本...
字节跳动开源多模态AI Agent—UI-TARS-1.5
字节跳动开源了多模态AI Agent UI-TARS的最新1.5版本,该版本在多个基准测试中表现出色,展现了其强大的通用性和扩展能力。在计算机使用方面,UI-TARS-1.5在O...
强化学习带来的改进只是「噪音」?最新研究预警:冷静看待推理模型的进展
「推理」已成为语言模型的下一个主要前沿领域,学术界和工业界在探索模型推理性能提升的过程中,提出了一个核心问题:什么方法有效,什么方法无效?近期研究...
Llama 4 先后被 DeepSeek、英伟达暴击,Meta 不再是大模型开源“霸主”了
英伟达于4月8日发布了最新大语言模型Llama3.1 Nemotron Ultra 253B,该模型基于Meta的Llama-3.1-405B-Instruct构建,并通过神经架构搜索(NAS)技术进行了深...
OpenAI 发布大模型现实世界软件工程基准测试 SWE-Lancer
OpenAI 最近发布了 SWE-Lancer 基准测试,旨在评估大语言模型在现实世界自由职业软件工程任务中的表现。该基准测试的数据集包含来自 Upwork 的 1400 多个任务...
高中生用「我的世界」评测SOTA模型!Claude暂时领先,DeepSeek紧随其后
AI模型在复杂基准测试中表现出色,却在简单问题上频频出错,这种反差促使创意评测的兴起。例如,高中生Adi Singh开发的MC-Bench利用Minecraft的“竞技场”模式...