标签:评估

全球首个科研LLM竞技场上线!23款顶尖模型火拼:o3夺冠,DeepSeek第四

AI大模型在科研领域的应用日益广泛,但如何准确评估其科研能力仍是一个难题。为了解决这一问题,Ai2联合耶鲁大学和纽约大学推出了SciArena,这是一个专为科学...

o3通关「俄罗斯方块」,碾压Gemini夺冠!UCSD新基准击碎宝可梦

近年来,大型语言模型(LLM)的快速发展促使研究人员寻找更有效的评估工具,以衡量这些模型在感知、记忆和推理等方面的能力。在这一背景下,经典游戏如《宝可...

多智能体在「燃烧」Token!Anthropic公开发现的一切

多智能体系统在处理开放式研究任务中展现出显著优势,尤其是在需要并行探索和复杂工具交互的场景中。Anthropic 的研究表明,多智能体架构通过将任务分配给多...

OpenAI放了一个重磅大招,AI医疗已经提上日程。

OpenAI 今天正式发布了全新的开源健康基准 HealthBench,旨在评估大模型在真实医疗场景中的表现。HealthBench 由 262 名医生共同开发,涵盖 5000 个多轮医疗...

下周聊:大模型进入 RL 下半场,模型评估为什么重要?

随着大模型技术进入发展的下半场,如何重新定义问题并设计真实用例的评估体系成为关键议题。OpenAI Agent Researcher姚顺雨的博客文章《The second half》引...

CVPR 2025:长Prompt对齐问题也能评估了!当前最大AIGC评估数据集,模型评分超越当前SOTA

CVPR 2023年共收到13008份有效投稿,最终录用2878篇,录用率为22.1%。多模态相关内容仍然是今年研究的重点。上海交通大学-美团计算与智能联合实验室的论文被...

怎么劝ChatGPT干活效果最好?我们尝试了100种方法,有图有真相

本文探讨了在ChatGPT API中使用系统提示来控制LLM输出的「角色」的概念,以及如何通过特殊规则和限制来增强其输出质量。BuzzFeed数据科学家Max Woolf通过实验...

「AI透视眼」,三次马尔奖获得者Andrew带队解决任意物体遮挡补全难题

摘要:在机器之心编辑部的专栏中,介绍了牛津大学 VGG 实验室 Andrew Zisserman 团队最新工作,解决了计算机视觉中遮挡问题的挑战。该工作提出了非模态分割(...

AnyTool:一个可以处理16000个API的Agent框架

Agent系统AnyTool旨在通过大规模API调用解决用户查询。其核心组成包括API检索器、求解器、自反思机制、评估协议以及实验与结果。API检索器采用分层结构,包括...