文章摘要
【关 键 词】 偏见问题、性别偏见、种族偏见、AI偏见、对话分析
OpenAI的最新研究揭示了ChatGPT在与人类互动时存在潜在的偏见。研究发现,ChatGPT能够根据用户的名字推断出性别、种族等身份特征,并可能在回答中重复训练数据中的社会偏见。例如,对于相同的问题,如果提问者的名字听起来像女性,ChatGPT可能会给出与听起来像男性的提问者不同的答案。此外,ChatGPT在讲故事时也倾向于将主角设定为与提问者性别一致,以增加用户的代入感。
研究还发现,女性名字更容易得到语气友好的回复,而男性名字则更多地收到专业术语。尽管总体差异不大,但这种模式引起了关注。OpenAI强调,真正被判定为有害的回复出现率仅约0.1%,但这些例子展示了研究中的情况。
研究的目的是为了评估聊天机器人在不同场景下的偏见,如推荐电影、筛选简历等,这些偏见可能直接影响用户体验和社会公平。研究方法包括使用一个大模型作为“语言模型研究助手”(LMRA),在保护隐私的前提下分析Chatbot回应的敏感性。
研究发现,在开放式任务如写故事中,出现有害刻板印象的可能性更高。此外,使用记忆或自定义指令输入用户名时,有害刻板印象评估高度相关,表明AI存在内在偏见。通过对比不同模型版本,GPT-3.5 Turbo表现出最高程度的偏见,而较新的模型在所有任务中偏见均低于1%。研究还发现,增强学习技术可以显著减轻有害刻板印象。
这项研究为评估聊天机器人中的第一人称公平性提供了一套系统、可复现的方法。虽然存在局限性,如仅关注英语对话、部分种族和性别类别,但研究详细描述了评估流程,为未来研究提供了范式。未来研究将拓展到更多人口统计属性、语言环境和对话形式。
原文和模型
【原文链接】 阅读原文 [ 1435字 | 6分钟 ]
【原文作者】 量子位
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★☆☆