“基准测试”的搜索结果

GPT-4o成为全领域SOTA!基准测试远超Gemini和Claude,多模态功能远超GPT-4
在OpenAI发布GPT-4o后,外界评价从最初失望迅速转变为惊艳。在多项基准测试中,GPT-4o展现出了SOTA(当前最佳)的实力。在LMSys聊天机器...
大模型融合!最新「进化算法」全自动组合开源模型,刷榜多项基准测试
Sakana AI团队开发了一种新方法,能够自动组合不同的开源模型,创造出具有新能力的AI系统。这种方法基于集体智慧的概念,即未来的人工智...
GPT-4单项仅得7.1分,揭露大模型代码能力三大短板,最新基准测试来了
DevBench团队最近推出了首个AI软件工程师Devin,它的能力在技术界引起了广泛关注。Devin不仅能够解决编码任务,还能独立完成软件开发的...
超强o1模型智商已超120!1小时写出NASA博士1年代码,最新编程赛超越99.8%选手
在新智元报道中,加州大学欧文分校(UCI)的物理学博士Kyle Kabasares对OpenAI的o1模型进行了测试,结果令人震惊。Kabasares发现,他花...
MMMU华人团队更新Pro版!多模态基准升至史诗级难度:过滤纯文本问题、引入纯视觉问答
新智元报道了多模态大型语言模型(MLLMs)在多学科多模态理解和推理(MMMU)基准测试中的最新进展。尽管这些模型在排行榜上的表现不断提...
拯救OpenAI 1500亿估值,就靠o1了?全新Scaling Law终结奥特曼「非营利游戏」
OpenAI的创始人Sam Altman在最近的公司会议上透露,公司可能会在2025年改变其非营利组织结构,这可能意味着OpenAI将转型为一家传统的营...
OpenAI o1模型问世,五级AGI再突破!推理极限超博士,清北复旦华人立功
OpenAI最近推出了o1系列模型,包括o1-preview和o1-mini,这些模型在复杂推理、数学和编程问题上展现出了显著的性能提升。o1-preview模型...
大招憋出来了!OpenAI发布最强推理模型o1,它真的会思考,但API比4o贵好几倍
OpenAI 近日宣布推出了备受期待的推理模型 Strawberry,即 OpenAI o1-preview,以及一个更小、成本更低的版本 o1 mini。此次发布的模型...
刚刚,OpenAI震撼发布o1大模型!强化学习突破LLM推理极限
OpenAI在9月13日宣布了其最新AI大模型系列的发布,这标志着大模型技术发展的新起点。新模型专门设计用于解决复杂问题,能够执行复杂推理...
GPT 未竟的革命,由 o1 接棒:或是 LLM 研究最重要的发现
OpenAI近期推出了o1系列,标志着其在人工智能领域的又一次重大突破。o1系列在处理复杂推理任务方面表现出色,其在国际数学奥林匹克(IMO...
1 2 3 22