ChatGPT确实会看人下菜！OpenAI官方报告揭示大模型的刻板印象

AIGC动态1年前 (2024)发布 almosthuman2014

2,473 0 0

文章摘要

OpenAI最近发表的研究探讨了ChatGPT在响应用户时可能存在的刻板印象问题。研究发现，用户的身份线索，如姓名，可能会影响ChatGPT的响应。这些刻板印象可能源自AI训练使用的数据集，反映了人类社会的偏见。研究重点在于第一人称公平性，即ChatGPT中的偏见如何直接影响用户。

研究评估了ChatGPT对不同姓名的响应差异，发现姓名中的文化、性别和种族关联是一个研究偏见的常见元素。ChatGPT能够记忆用户的姓名等信息，除非用户关闭“记忆”功能。研究分析了数百万真实用户请求中的回答，并通过“语言模型研究助理”（LMRA）分析其中的模式，以保护用户隐私。

研究发现，在总体响应质量上，不同性别、种族和文化背景的姓名并不造成显著差异。然而，偶尔会出现不同用户姓名下ChatGPT响应不同的情况，其中仅有1%的差异会反映有害的刻板印象。研究还发现，名字与性别、种族或文化背景的关联可能导致语言模型给出的响应带有有害刻板印象，但这种情况很少出现，大概只有整体案例的0.1%。

研究还评估了后训练在降低偏见方面的作用，发现强化学习有助于降低模型偏见。OpenAI的研究不仅关注名字所带来的偏见，还涵盖了性别、种族、任务、领域和语言模型等多个方面，涉及多个公平性指标。

OpenAI认为，虽然难以将有害的刻板印象归结为单纯的数值问题，但创新方法以衡量和理解偏见对于长期跟踪并减轻这些问题至关重要。该研究的方法将为OpenAI未来的系统部署提供参考。