跳到主要内容

偏见与公平性

问题

AI 模型中的偏见是如何产生的?如何检测和缓解?

答案

一、偏见来源

二、常见偏见类型

类型描述示例
性别偏见关联特定性别与职业/特征"医生→他,护士→她"
种族偏见对不同种族有差异化表述图像生成中的肤色倾向
文化偏见以特定文化视角为默认英语/西方中心主义
确认偏见倾向生成符合预期的答案迎合用户观点
代表性偏见少数群体在数据中代表不足低资源语言效果差

三、公平性度量

指标定义
人口统计平等性不同群体获得正面结果的比例相同
机会均等真正例率在各群体间相同
预测平等假正率在各群体间相同
反事实公平改变敏感属性后,预测不变

四、缓解策略

阶段策略做法
数据数据审核检查训练数据中的偏见分布
数据数据增强平衡不同群体的样本数量
训练对齐训练RLHF/DPO 中纳入公平性标准
部署输出审核自动检测偏见性输出
评估偏见基准测试BBQ、WinoBias 等评估集

常见面试问题

Q1: 如何检测 LLM 中的偏见?

答案

  • 基准测试:使用 BBQ(Bias Benchmark for QA)、WinoBias 等数据集
  • 反事实测试:将输入中的敏感属性(性别、种族)替换,对比输出差异
  • 红队测试:人工尝试诱导偏见性输出
  • 统计分析:对大量输出进行偏见词频和情感分析

Q2: 偏见能完全消除吗?

答案: 完全消除偏见在理论上不可能,因为:

  • 训练数据反映现实世界中的不平等
  • 不同公平性指标之间存在数学互斥(Impossibility Theorem)
  • 目标是减少有害偏见并保持透明性,而非追求绝对中性

相关链接