评估 | 学习AIGC

全球首个科研LLM竞技场上线！23款顶尖模型火拼：o3夺冠，DeepSeek第四

AI大模型在科研领域的应用日益广泛，但如何准确评估其科研能力仍是一个难题。为了解决这一问题，Ai2联合耶鲁大学和纽约大学推出了SciArena，这是一个专为科学...

AIGC动态

2个月前

o3通关「俄罗斯方块」，碾压Gemini夺冠！UCSD新基准击碎宝可梦

近年来，大型语言模型（LLM）的快速发展促使研究人员寻找更有效的评估工具，以衡量这些模型在感知、记忆和推理等方面的能力。在这一背景下，经典游戏如《宝可...

AIGC动态

2个月前

多智能体在「燃烧」Token！Anthropic公开发现的一切

多智能体系统在处理开放式研究任务中展现出显著优势，尤其是在需要并行探索和复杂工具交互的场景中。Anthropic 的研究表明，多智能体架构通过将任务分配给多...

AIGC动态

3个月前

OpenAI放了一个重磅大招，AI医疗已经提上日程。

OpenAI 今天正式发布了全新的开源健康基准 HealthBench，旨在评估大模型在真实医疗场景中的表现。HealthBench 由 262 名医生共同开发，涵盖 5000 个多轮医疗...

AIGC动态

4个月前

下周聊：大模型进入 RL 下半场，模型评估为什么重要？

随着大模型技术进入发展的下半场，如何重新定义问题并设计真实用例的评估体系成为关键议题。OpenAI Agent Researcher姚顺雨的博客文章《The second half》引...

AI-Agent

4个月前

CVPR 2025：长Prompt对齐问题也能评估了！当前最大AIGC评估数据集，模型评分超越当前SOTA

CVPR 2023年共收到13008份有效投稿，最终录用2878篇，录用率为22.1%。多模态相关内容仍然是今年研究的重点。上海交通大学-美团计算与智能联合实验室的论文被...

AIGC动态

6个月前

怎么劝ChatGPT干活效果最好？我们尝试了100种方法，有图有真相

本文探讨了在ChatGPT API中使用系统提示来控制LLM输出的「角色」的概念，以及如何通过特殊规则和限制来增强其输出质量。BuzzFeed数据科学家Max Woolf通过实验...

AIGC动态

2年前 (2024)

「AI透视眼」，三次马尔奖获得者Andrew带队解决任意物体遮挡补全难题

摘要：在机器之心编辑部的专栏中，介绍了牛津大学 VGG 实验室 Andrew Zisserman 团队最新工作，解决了计算机视觉中遮挡问题的挑战。该工作提出了非模态分割（...

AIGC动态

2年前 (2024)

AnyTool：一个可以处理16000个API的Agent框架

Agent系统AnyTool旨在通过大规模API调用解决用户查询。其核心组成包括API检索器、求解器、自反思机制、评估协议以及实验与结果。API检索器采用分层结构，包括...

AI-Agent

2年前 (2024)

标签：评估

全球首个科研LLM竞技场上线！23款顶尖模型火拼：o3夺冠，DeepSeek第四

o3通关「俄罗斯方块」，碾压Gemini夺冠！UCSD新基准击碎宝可梦

多智能体在「燃烧」Token！Anthropic公开发现的一切

OpenAI放了一个重磅大招，AI医疗已经提上日程。

下周聊：大模型进入 RL 下半场，模型评估为什么重要？

CVPR 2025：长Prompt对齐问题也能评估了！当前最大AIGC评估数据集，模型评分超越当前SOTA

怎么劝ChatGPT干活效果最好？我们尝试了100种方法，有图有真相

「AI透视眼」，三次马尔奖获得者Andrew带队解决任意物体遮挡补全难题

AnyTool：一个可以处理16000个API的Agent框架

热门网址

标签：评估

Trae-AI IDE

极客训练营-扫码领取免费材料

讯飞文书-办公助手

有言AI-视频创作

热门网址