设计自动化巡检平台
架构设计
巡检项设计
| 类别 | 检查项 | 通过条件 | 频率 |
|---|---|---|---|
| 资源 | CPU 使用率 | < 80% | 每小时 |
| 资源 | 磁盘使用率 | < 85% | 每小时 |
| 资源 | inode 使用率 | < 80% | 每天 |
| 服务 | 进程存活 | running | 每 5 分钟 |
| 服务 | 端口监听 | listening | 每 5 分钟 |
| 服务 | 健康接口 | HTTP 200 | 每分钟 |
| 安全 | 登录失败次数 | < 10 次/小时 | 每小时 |
| 安全 | 异常进程检测 | 无异常 | 每天 |
| 备份 | 最后备份时间 | < 24 小时 | 每天 |
| 证书 | SSL 过期时间 | > 30 天 | 每天 |
| NTP | 时间同步 | 偏移 < 1s | 每天 |
巡检报告模板
# 日常巡检报告
- 日期:2024-01-15
- 范围:生产环境 50 台服务器
- 执行时间:03:00
## 概览
- ✅ 通过: 45 台
- ⚠️ 预警: 3 台
- ❌ 异常: 2 台
## 异常详情
| 主机 | 检查项 | 当前值 | 阈值 | 建议 |
|------|--------|--------|------|------|
| web-03 | 磁盘 | 92% | 85% | 清理日志 |
| db-01 | 连接数 | 450 | 500 | 优化连接池 |
## 趋势分析
- 磁盘增长趋势:预计 15 天后 web-03 磁盘满
- CPU 峰值逐周上升 5%,建议关注
常见面试问题
Q1: 巡检平台如何避免"只有报告没人看"的问题?
答案:
- 只推异常:正常的巡检结果不发通知,只推送异常项
- 自动化工单:异常项自动创建工单,分配责任人
- 趋势告警:不只看当前值,还分析增长趋势(如磁盘增长速率)
- 定期复盘:每周/每月汇总巡检数据,识别系统性问题
- 与变更关联:变更后触发专项巡检,验证变更影响