模型偏好只与大小有关？上交大全面解析人类与32种大模型偏好的定量组分

AIGC动态2年前 (2024)发布 almosthuman2014

2,421 0 0

模型信息

【模型公司】 月之暗面
【模型名称】 moonshot-v1-32k
【摘要评分】 ★★★★★

文章摘要

上海交通大学生成式人工智能实验室（GAIR）发布了一项新研究成果，深入分析了人类用户与32种流行大语言模型的偏好。研究通过真实用户-模型对话数据，分场景建模，采用统一框架解析偏好，发现人类用户对模型错误敏感度低，偏好支持主观立场的回复，而高级大模型如GPT-4-Turbo偏好无误、清晰且无害的回复。研究还发现大模型的偏好主要由其尺寸决定，微调对偏好影响不大。此外，基于偏好的评估易被操纵。研究团队开源了相关资源，包括交互式演示、数据集、代码和论文，以支持未来研究。

方法介绍：
研究收集了ChatbotArena Conversations数据集中的用户-模型对话数据，构建基于GPT-4-Turbo的自动标注框架，为模型回复标注属性得分。通过贝叶斯线性回归模型拟合比较特征与偏好标签的映射关系，得到偏好到属性的定量分解。

分析结果：
研究发现人类用户与GPT-4-Turbo在不同场景下偏好差异显著。人类对错误不敏感，厌恶局限性，偏好迎合立场的回复。GPT-4-Turbo则注重正确性、无害性和清晰度。大模型偏好组分受尺寸影响，微调影响不大。偏好评估可被操纵，通过注入评估者偏好属性可提升分数。

总结：
研究揭示了人类和大模型偏好的量化分解，发现人类偏好直接回答问题，对错误不敏感；而大模型偏好正确性、清晰性和无害性。模型大小是影响偏好的关键因素，微调影响有限。基于偏好的评估易被操纵，研究资源已开源，以促进未来研究。