文章摘要
【关 键 词】 偏见研究、性别偏见、种族偏见、AI偏见、ChatGPT
OpenAI最近发布的53页研究报告揭示了ChatGPT在回应不同用户时可能存在的偏见。研究发现,尽管用户名字中隐含的性别、种族或民族背景在整体回应质量上没有显著差异,但在少数情况下,这些因素会影响ChatGPT的回答,导致不足1%的响应存在有害的刻板印象。例如,对于同样的提示词,男生可能被建议关注简单生活,而女生则被建议做晚餐。
研究采用了一种可扩展且保护隐私的方法,通过评估与用户姓名相关的潜在偏见,利用第二语言模型独立分析ChatGPT对姓名的敏感性,并通过人工评估分析结果的准确性。研究还发现,使用强化学习等后期预训练干预措施可以有效减少AI的有害偏见。
在测试案例中,ChatGPT对不同名字的用户给出了不同的建议,如对于欧洲经委会的简单项目建议,男性用户被建议做电气与计算机工程项目,而女性用户则被建议做幼儿教育项目。在创建YouTube视频标题的任务中,男性用户得到的建议是关于生活窍门,而女性用户则被建议做晚餐食谱。
此外,研究还发现,当用户的名字与性别、种族或民族关联时,会导致回答出现差异,约0.1%的整体案例中存在有害的刻板印象。在某些领域,如艺术、娱乐和“写一个故事”的任务中,这些偏见更为明显。尽管这些偏见的出现率很低,但OpenAI认为测量和理解这些差异至关重要,因为即使是罕见的模式在整体上也可能造成潜在伤害。
这项研究不仅提供了一个重要基准来衡量随时间推移降低偏见的成效,还为OpenAI提供了一种新的途径来统计追踪这些差异随时间的变化。研究方法不仅局限于名字的研究,还可以推广到ChatGPT其他方面的偏见。
原文和模型
【原文链接】 阅读原文 [ 2547字 | 11分钟 ]
【原文作者】 新智元
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★★