跳到主要内容

监控与告警知识体系概览

知识地图

可观测性三支柱

支柱用途代表工具数据特点
Metrics(指标)"发生了什么"Prometheus时序数值,聚合分析
Logging(日志)"为什么发生"ELK / Loki非结构化文本,全文搜索
Tracing(链路追踪)"在哪里发生"Jaeger / Tempo分布式调用链

三者结合才能完整解决问题:Metrics 发现异常 → Tracing 定位服务 → Logging 排查根因。

监控体系架构

监控层级

层级监控对象关键指标
基础设施CPU / 内存 / 磁盘 / 网络使用率、IOPS、带宽
容器 & K8sPod / Node / Deployment重启次数、Pending、资源使用
中间件MySQL / Redis / Kafka连接数、QPS、延迟、慢查询
应用层API / 微服务QPS、错误率、P99 延迟
业务层订单 / 支付 / 注册成功率、转化率、GMV
黄金指标(Google SRE 四大黄金信号)
  • 延迟(Latency):请求耗时
  • 流量(Traffic):请求速率
  • 错误(Errors):错误率
  • 饱和度(Saturation):资源使用率

工具选型

场景推荐方案
通用监控(云原生)Prometheus + Grafana
传统主机监控Zabbix
全栈可观测性(SaaS)Datadog / New Relic
云厂商CloudWatch / 云监控
大规模集群Prometheus + Thanos/Mimir

学习路径

  1. 入门:理解可观测性三支柱,安装 Prometheus + Grafana
  2. 进阶:PromQL 查询、告警规则、Exporter 接入
  3. 实践:监控 K8s 集群、中间件、自定义应用指标
  4. 高级:Thanos 长期存储、告警收敛、SLO 体系

相关链接