跳到主要内容

设计自动化巡检平台

架构设计

巡检项设计

类别检查项通过条件频率
资源CPU 使用率< 80%每小时
资源磁盘使用率< 85%每小时
资源inode 使用率< 80%每天
服务进程存活running每 5 分钟
服务端口监听listening每 5 分钟
服务健康接口HTTP 200每分钟
安全登录失败次数< 10 次/小时每小时
安全异常进程检测无异常每天
备份最后备份时间< 24 小时每天
证书SSL 过期时间> 30每天
NTP时间同步偏移 < 1s每天

巡检报告模板

# 日常巡检报告
- 日期:2024-01-15
- 范围:生产环境 50 台服务器
- 执行时间:03:00

## 概览
- ✅ 通过: 45 台
- ⚠️ 预警: 3 台
- ❌ 异常: 2 台

## 异常详情
| 主机 | 检查项 | 当前值 | 阈值 | 建议 |
|------|--------|--------|------|------|
| web-03 | 磁盘 | 92% | 85% | 清理日志 |
| db-01 | 连接数 | 450 | 500 | 优化连接池 |

## 趋势分析
- 磁盘增长趋势:预计 15 天后 web-03 磁盘满
- CPU 峰值逐周上升 5%,建议关注

常见面试问题

Q1: 巡检平台如何避免"只有报告没人看"的问题?

答案

  1. 只推异常:正常的巡检结果不发通知,只推送异常项
  2. 自动化工单:异常项自动创建工单,分配责任人
  3. 趋势告警:不只看当前值,还分析增长趋势(如磁盘增长速率)
  4. 定期复盘:每周/每月汇总巡检数据,识别系统性问题
  5. 与变更关联:变更后触发专项巡检,验证变更影响

相关链接