设计内容审核系统
问题
设计一个 AI 内容审核系统,对 UGC 和 AI 生成内容进行安全审核。
答案
一、审核架构
二、多层审核策略
| 层级 | 方法 | 延迟 | 精度 |
|---|---|---|---|
| 规则引擎 | 关键词黑名单 | <1ms | 低(易绕过) |
| ML 分类器 | BERT 分类 | <50ms | 中 |
| LLM 审核 | GPT-4 判断 | 1~3s | 高 |
| 人工审核 | 人工判断 | 分钟级 | 最高 |
三、审核类别
| 类别 | 示例 |
|---|---|
| 暴力 | 暴力威胁、血腥内容 |
| 色情 | 成人内容 |
| 仇恨言论 | 歧视、种族主义 |
| 虚假信息 | 谣言、伪科学 |
| 个人攻击 | 辱骂、骚扰 |
| PII 泄露 | 手机号、身份证号 |
四、关键指标
| 指标 | 目标 |
|---|---|
| 召回率 | >99%(尽量不遗漏有害内容) |
| 误杀率 | <1%(减少正常内容被误拦) |
| 审核延迟 | 实时内容 <500ms,异步 <5min |
常见面试问题
Q1: 如何平衡审核准确率和误杀率?
答案:
- 分级策略:高风险内容(暴力/色情)用高召回模型,宁可误杀
- 不确定的内容进人工审核队列
- 设置申诉机制,让被误杀的创作者可以申诉
- 持续收集 case 改进模型