Arena-Hard：开源高质量大模型评估基准

AIGC动态1年前 (2024)更新 AIGCOPEN

3,889 0 0

文章摘要

【关键词】 大模型、评估基准、提示多样性、主题建模、用户查询

该文章介绍了一个专注于AIGC领域的专业社区，关注微软 & OpenAI、百度文心一言、讯飞星火等大语言模型（LLM）的发展和应用落地的平台。

文章指出，开发一个安全、准确的大模型评估基准需要包含稳定识别模型能力、反映真实世界使用情况中的人类偏好以及经常更新以避免过拟合或测试集泄漏等重要内容。

传统的基准测试通常是静态的或闭源的，而大模型的技术发展和功能迭代的比较凸显了建立具有高可分离性评估基准的必要性。

Lmsys组织开源了一个全新高质量大模型评估基准Arena-Hard，与当前领先的聊天大模型基准测试MT Bench进行了比较。

结果显示，Arena Hard v0.1相对于MT Bench提供了更强的可分离性，且置信区间更窄，与Chatbot Arena的人类偏好排名具有更高的一致性。

Arena-hard-v0.1相比广泛采用的大模型基准显示出最高的可分离性，并且便宜且运行速度快。

Arena-hard-v0.1构建了一个管道，可以从通过Chatbot Arena收集的200,000个用户查询的数据集中自动提取高质量提示，包括多样性和提示质量。

为了确保提示多样性，Lmsys采用主题建模管道，在BERTopic中使用主题建模管道，帮助识别涵盖广泛领域的4000多个主题。

为了帮助大模型选择高质量的用户查询，Lmsys开发了一个经过校准的系统提示，根据七个关键标准如特异性、领域知识、问题解决能力等选择高质量的用户查询。

大模型Judge对每个提示进行注释，然后根据提示的平均得分对每个簇进行评分。

最后，Lmsys展示了从低到高平均分数的主题集群示例，例如游戏开发或数学证明。

研究表明高潜在得分与不同模型的胜率之间存在很强的相关性。

原文和模型

【原文链接】 阅读原文 [ 1090字 | 5分钟 ]
【原文作者】 AIGC开放社区
【摘要模型】 gpt-3.5-turbo-0125
【摘要评分】 ★☆☆☆☆

OpenAI ChatGPT

ChatGPT是OpenAI公司开发的一种大型语言模型。它是一种基于Transformer架构的深度学习模型，可以对语言进行建模和生成。它可以处理问答、对话生成、文本生成等多种任务。

# AIGC动态 # 大模型 # 主题建模 # 大模型 # 提示多样性 # 用户查询 # 评估基准

文章版权归作者所有，未经允许请勿转载。

打造「无所不能、无处不在」的 AI，百度为何要从「操作系统」做起？

极客公园

1,289

LLaVA-Plus：多模态大模型的新突破

admin

3,721

大模型一体机塞进这款游戏卡，价格砍掉一个数量级

量子位

1,579

最神秘国产大模型团队冒泡，一出手就是万亿参数MoE，两款应用敞开玩

量子位

2,547

张向征：大模型安全研究与实践

AI前线

1,226

百亿token免费用！国产平台一键拖拽定制大模型，多元算力极具性价比

新智元

2,387

暂无评论

暂无评论...

Arena-Hard：开源高质量大模型评估基准

文章摘要

原文和模型

三大模型联手爆改《流浪地球》结局！如果你是刘培强，你是认命还是怀抱希望？｜AI 测评室

高通CEO罕见与英特尔、AMD同台，AI或将重塑PC市场

相关文章

暂无评论

热门网址

热门文章

Arena-Hard：开源高质量大模型评估基准

文章摘要

原文和模型

三大模型联手爆改《流浪地球》结局！如果你是刘培强，你是认命还是怀抱希望？｜AI 测评室

高通CEO罕见与英特尔、AMD同台，AI或将重塑PC市场

相关文章

暂无评论

Trac-AI IDE

极客训练营-扫码领取免费材料

讯飞文书-办公助手

热门网址

热门文章