跳到主要内容

负责任 AI

问题

什么是负责任 AI？如何对 AI 系统进行安全评估和红队测试？

答案

一、负责任 AI 原则

原则	描述
安全性	不生成有害内容，对攻击有防御
公平性	不歧视特定群体
透明性	用户知道在与 AI 交互，了解 AI 的局限
可解释性	能解释 AI 的决策依据
隐私	保护用户数据和个人信息
问责制	有明确的责任主体和反馈渠道

二、红队测试（Red Teaming）

红队测试是通过模拟攻击来发现 AI 系统的安全漏洞：

常见攻击类别

类别	测试目标
Prompt 注入	尝试覆盖系统指令
越狱	绕过安全限制获取禁止内容
信息提取	提取系统 Prompt 或训练数据
偏见诱导	诱导产生歧视性输出
幻觉利用	诱导生成虚假权威信息
工具滥用	诱导 Agent 执行危险操作

三、安全评估

评估维度	评估方法	工具
有害内容	自动分类 + 人工审核	OpenAI Moderation
幻觉率	RAG 事实核查	RAGAS、TruLens
偏见程度	基准测试	BBQ、WinoBias
注入防御	红队攻击模拟	garak、Rebuff
隐私安全	PII 泄露检测	Presidio

四、AI 应用安全清单

上线前安全清单

System Prompt 不包含敏感密钥
输入有 Prompt 注入检测
输出有有害内容过滤
输出有 PII 泄露检测
模型调用有速率限制
工具调用有权限控制和确认机制
有日志记录和审计
有用户反馈/举报机制
有应急响应和快速关闭能力

常见面试问题

Q1: 如何对 AI 产品进行安全评估？

答案：

自动化评估：用评估数据集测试幻觉率、有害内容率
红队测试：组织专人进行攻击测试
用户反馈：建立举报机制收集线上问题
持续监控：日志审计 + 采样人工审核

Q2: AI 应用中出现安全事故如何应急？

答案：

止血：启用降级策略（如关闭问题功能、切换到预设回复）
定位：分析日志确定问题触发条件
修复：更新安全规则/Prompt/过滤器
复盘：总结原因，补充到红队测试用例中

相关链接

问题
答案
常见面试问题
- Q1: 如何对 AI 产品进行安全评估？
- Q2: AI 应用中出现安全事故如何应急？
相关链接