标签:基准
40位数学家组成8队与o4-mini-medium比赛,6队败北
Epoch AI 最近组织了一场人机数学竞赛,邀请了40位数学家组成8支队伍,与OpenAI的o4-mini-medium模型进行对决。竞赛题目来自高难度的FrontierMath数据集,旨...
OpenAI放了一个重磅大招,AI医疗已经提上日程。
OpenAI 今天正式发布了全新的开源健康基准 HealthBench,旨在评估大模型在真实医疗场景中的表现。HealthBench 由 262 名医生共同开发,涵盖 5000 个多轮医疗...
Gemini 2.5 Pro登顶三冠王!AI最强编程屠榜,全面碾压Claude 3.7
谷歌最新发布的Gemini 2.5 Pro Preview(I/O版)在多个领域取得了显著突破,尤其是在编程、视觉和文本处理方面表现卓越。该模型在LMeana基准测试中斩获三连冠...
AI「自我复制」能力曝光!RepliBench警示:大模型正在学会伪造身份
科幻中AI自我复制失控的场景正逐渐成为现实世界严肃的研究课题。英国AISI推出的RepliBench基准,旨在分解并评估AI自主复制所需的四大核心能力:获取模型权重...
刚刚,OpenAI劲敌重磅发布Inflection-2.5!性能媲美GPT-4但计算量仅为40%,高情商应用Pi日活已破百万
摘要:Inflection-2.5模型的发布标志着AI领域的新里程碑。这款由Inflection公司开发的新模型,在仅使用40%的计算量的情况下,性能与GPT-4不相上下。这一成就...