负责任 AI
问题
什么是负责任 AI?如何对 AI 系统进行安全评估和红队测试?
答案
一、负责任 AI 原则
| 原则 | 描述 |
|---|---|
| 安全性 | 不生成有害内容,对攻击有防御 |
| 公平性 | 不歧视特定群体 |
| 透明性 | 用户知道在与 AI 交互,了解 AI 的局限 |
| 可解释性 | 能解释 AI 的决策依据 |
| 隐私 | 保护用户数据和个人信息 |
| 问责制 | 有明确的责任主体和反馈渠道 |
二、红队测试(Red Teaming)
红队测试是通过模拟攻击来发现 AI 系统的安全漏洞:
常见攻击类别
| 类别 | 测试目标 |
|---|---|
| Prompt 注入 | 尝试覆盖系统指令 |
| 越狱 | 绕过安全限制获取禁止内容 |
| 信息提取 | 提取系统 Prompt 或训练数据 |
| 偏见诱导 | 诱导产生歧视性输出 |
| 幻觉利用 | 诱导生成虚假权威信息 |
| 工具滥用 | 诱导 Agent 执行危险操作 |
三、安全评估
| 评估维度 | 评估方法 | 工具 |
|---|---|---|
| 有害内容 | 自动分类 + 人工审核 | OpenAI Moderation |
| 幻觉率 | RAG 事实核查 | RAGAS、TruLens |
| 偏见程度 | 基准测试 | BBQ、WinoBias |
| 注入防御 | 红队攻击模拟 | garak、Rebuff |
| 隐私安全 | PII 泄露检测 | Presidio |
四、AI 应用安全清单
上线前安全清单
- System Prompt 不包含敏感密钥
- 输入有 Prompt 注入检测
- 输出有有害内容过滤
- 输出有 PII 泄露检测
- 模型调用有速率限制
- 工具调用有权限控制和确认机制
- 有日志记录和审计
- 有用户反馈/举报机制
- 有应急响应和快速关闭能力
常见面试问题
Q1: 如何对 AI 产品进行安全评估?
答案:
- 自动化评估:用评估数据集测试幻觉率、有害内容率
- 红队测试:组织专人进行攻击测试
- 用户反馈:建立举报机制收集线上问题
- 持续监控:日志审计 + 采样人工审核
Q2: AI 应用中出现安全事故如何应急?
答案:
- 止血:启用降级策略(如关闭问题功能、切换到预设回复)
- 定位:分析日志确定问题触发条件
- 修复:更新安全规则/Prompt/过滤器
- 复盘:总结原因,补充到红队测试用例中