新测试基准发布，最强开源Llama 3尴尬了

AIGC动态1年前 (2024)发布 QbitAI

2,062 0 0

新测试基准发布，最强开源Llama 3尴尬了

文章摘要

【关键词】 基准测试、区分度、提示词、客观性、验证有效性

文章介绍了一个名为Arena-Hard的新基准测试，旨在提供更难、更有区分度的测试，以区分不同AI模型的表现。该测试利用竞技场实时人类数据构建，具有高度的区分度和与人类偏好一致率。测试集的选择过程确保了多样性和高质量，通过多个关键指标来衡量提示词的质量。新基准测试的运作方式包括使用大模型竞技场用户查询中的高质量提示词作为测试集，并通过GPT模型对每个提示进行评分。然而，该测试目前存在一个弱点，即使用GPT-4做裁判更偏好自己的输出。研究团队还发现，AI天生会偏好自己的输出，这可能影响测试结果的客观性。团队还进行了消融实验来验证测试的有效性，发现不同提示词对输出结果有不同影响。此外，使用不同大模型来综合打分可能是一个更好的选择。总体而言，新基准测试提供了一个更具挑战性和区分度的测试方式，但仍需要进一步完善和验证。

原文和模型

【原文链接】 阅读原文 [ 1276字 | 6分钟 ]
【原文作者】 量子位
【摘要模型】 gpt-3.5-turbo-0125
【摘要评分】 ★☆☆☆☆

OpenAI ChatGPT

ChatGPT是OpenAI公司开发的一种大型语言模型。它是一种基于Transformer架构的深度学习模型，可以对语言进行建模和生成。它可以处理问答、对话生成、文本生成等多种任务。

# AIGC动态 # GPT-GPTs # 大模型 # 区分度 # 基准测试 # 客观性 # 提示词 # 验证有效性

© 版权声明

文章版权归作者所有，未经允许请勿转载。

“绘蛙”

相关文章

刚刚，奥特曼放出ChatGPT「统一智能体」！惊呼真AGI，最卷打工人来了

新智元

404

OpenAI甩王炸！发布新模型o3，一夜再次改变世界！

AIGC开放社区

1,950

刚刚，OpenAI开源SimpleQA！轻松检测、校准大模型能力

AIGC开放社区

2,141

千页只需7块钱，Mistral发布世界最强文件扫描API，实测仍有缺陷

机器之心

954

李飞飞谢赛宁：多模态LLM「空间大脑」觉醒，惊现世界模型雏形！

新智元

2,588

强化学习带来的改进只是「噪音」？最新研究预警：冷静看待推理模型的进展

机器之心

1,149

“极客训练营”

暂无评论

暂无评论...