基准 | 学习AIGC

碾压DeepSeek V3！阿里开源新版Qwen-3，屠榜级断层第一

阿里巴巴今天凌晨开源了Qwen3系列的新版本Qwen3-235B-A22B-2507，这一版本在多个方面进行了显著优化。与之前的混合思考模型不同，新版Qwen3回归了指令微调模...

AI-Agent

1个月前

o3-pro通关“推箱子”，人类怀旧小游戏成了大模型新Benchmark

经典小游戏如推箱子和俄罗斯方块已成为评估大模型性能的新基准。o3-pro模型在这两款游戏中的表现尤为突出，直接突破了现有基准的上限。推箱子的所有关卡均被o...

AIGC动态

2个月前

对话图灵奖得主Jack Dongarra：DeepSeek很伟大；今天的美国不够重视科学

Jack Dongarra作为2021年图灵奖得主，在高性能计算（HPC）领域做出了开创性贡献，其开发的数值算法和软件库对现代计算科学产生了深远影响。他的工作主要集中...

AIGC动态

3个月前

对话图灵奖得主Jack Dongarra：DeepSeek很伟大；今天的美国不够尊重科学

Jack Dongarra是2021年图灵奖得主，他的研究对高性能计算（HPC）领域产生了深远影响，尤其是在数值算法和软件库的开发方面。他的工作为科学计算提供了基础工...

AIGC动态

3个月前

40位数学家组成8队与o4-mini-medium比赛，6队败北

Epoch AI 最近组织了一场人机数学竞赛，邀请了40位数学家组成8支队伍，与OpenAI的o4-mini-medium模型进行对决。竞赛题目来自高难度的FrontierMath数据集，旨...

AIGC动态

3个月前

OpenAI放了一个重磅大招，AI医疗已经提上日程。

OpenAI 今天正式发布了全新的开源健康基准 HealthBench，旨在评估大模型在真实医疗场景中的表现。HealthBench 由 262 名医生共同开发，涵盖 5000 个多轮医疗...

AIGC动态

4个月前

Gemini 2.5 Pro登顶三冠王！AI最强编程屠榜，全面碾压Claude 3.7

谷歌最新发布的Gemini 2.5 Pro Preview（I/O版）在多个领域取得了显著突破，尤其是在编程、视觉和文本处理方面表现卓越。该模型在LMeana基准测试中斩获三连冠...

AIGC动态

4个月前

AI「自我复制」能力曝光！RepliBench警示：大模型正在学会伪造身份

科幻中AI自我复制失控的场景正逐渐成为现实世界严肃的研究课题。英国AISI推出的RepliBench基准，旨在分解并评估AI自主复制所需的四大核心能力：获取模型权重...

AIGC动态

4个月前

刚刚，OpenAI劲敌重磅发布Inflection-2.5！性能媲美GPT-4但计算量仅为40%，高情商应用Pi日活已破百万

摘要：Inflection-2.5模型的发布标志着AI领域的新里程碑。这款由Inflection公司开发的新模型，在仅使用40%的计算量的情况下，性能与GPT-4不相上下。这一成就...

AIGC动态

1年前 (2024)

标签：基准

碾压DeepSeek V3！阿里开源新版Qwen-3，屠榜级断层第一

o3-pro通关“推箱子”，人类怀旧小游戏成了大模型新Benchmark

对话图灵奖得主Jack Dongarra：DeepSeek很伟大；今天的美国不够重视科学

对话图灵奖得主Jack Dongarra：DeepSeek很伟大；今天的美国不够尊重科学

40位数学家组成8队与o4-mini-medium比赛，6队败北

OpenAI放了一个重磅大招，AI医疗已经提上日程。

Gemini 2.5 Pro登顶三冠王！AI最强编程屠榜，全面碾压Claude 3.7

AI「自我复制」能力曝光！RepliBench警示：大模型正在学会伪造身份

刚刚，OpenAI劲敌重磅发布Inflection-2.5！性能媲美GPT-4但计算量仅为40%，高情商应用Pi日活已破百万

热门网址

标签：基准

Trae-AI IDE

极客训练营-扫码领取免费材料

讯飞文书-办公助手

有言AI-视频创作

热门网址