模型偏好只与大小有关?上交大全面解析人类与32种大模型偏好的定量组分

模型信息


【模型公司】 月之暗面
【模型名称】 moonshot-v1-32k
【摘要评分】 ★★★★★

模型偏好只与大小有关?上交大全面解析人类与32种大模型偏好的定量组分
 

文章摘要


【关 键 词】 偏好数据大模型用户对话属性分析模型对齐

上海交通大学生成式人工智能实验室(GAIR)发布了一项新研究成果,深入分析了人类用户与32种流行大语言模型的偏好。研究通过真实用户-模型对话数据,分场景建模,采用统一框架解析偏好,发现人类用户对模型错误敏感度低,偏好支持主观立场的回复,而高级大模型如GPT-4-Turbo偏好无误、清晰且无害的回复。研究还发现大模型的偏好主要由其尺寸决定,微调对偏好影响不大。此外,基于偏好的评估易被操纵。研究团队开源了相关资源,包括交互式演示、数据集、代码和论文,以支持未来研究。

方法介绍:
研究收集了ChatbotArena Conversations数据集中的用户-模型对话数据,构建基于GPT-4-Turbo的自动标注框架,为模型回复标注属性得分。通过贝叶斯线性回归模型拟合比较特征与偏好标签的映射关系,得到偏好到属性的定量分解。

分析结果:
研究发现人类用户与GPT-4-Turbo在不同场景下偏好差异显著。人类对错误不敏感,厌恶局限性,偏好迎合立场的回复。GPT-4-Turbo则注重正确性、无害性和清晰度。大模型偏好组分受尺寸影响,微调影响不大。偏好评估可被操纵,通过注入评估者偏好属性可提升分数。

总结:
研究揭示了人类和大模型偏好的量化分解,发现人类偏好直接回答问题,对错误不敏感;而大模型偏好正确性、清晰性和无害性。模型大小是影响偏好的关键因素,微调影响有限。基于偏好的评估易被操纵,研究资源已开源,以促进未来研究。

原文信息


【原文链接】 阅读原文
【阅读预估】 2201 / 9分钟
【原文作者】 机器之心
【作者简介】 专业的人工智能媒体和产业服务平台

© 版权声明

相关文章

暂无评论

暂无评论...