跳到主要内容

监控与告警知识体系概览

知识地图

可观测性三支柱

支柱	用途	代表工具	数据特点
Metrics（指标）	"发生了什么"	Prometheus	时序数值，聚合分析
Logging（日志）	"为什么发生"	ELK / Loki	非结构化文本，全文搜索
Tracing（链路追踪）	"在哪里发生"	Jaeger / Tempo	分布式调用链

三者结合才能完整解决问题：Metrics 发现异常 → Tracing 定位服务 → Logging 排查根因。

监控体系架构

监控层级

层级	监控对象	关键指标
基础设施	CPU / 内存 / 磁盘 / 网络	使用率、IOPS、带宽
容器 & K8s	Pod / Node / Deployment	重启次数、Pending、资源使用
中间件	MySQL / Redis / Kafka	连接数、QPS、延迟、慢查询
应用层	API / 微服务	QPS、错误率、P99 延迟
业务层	订单 / 支付 / 注册	成功率、转化率、GMV

黄金指标（Google SRE 四大黄金信号）

延迟（Latency）：请求耗时
流量（Traffic）：请求速率
错误（Errors）：错误率
饱和度（Saturation）：资源使用率

工具选型

场景	推荐方案
通用监控（云原生）	Prometheus + Grafana
传统主机监控	Zabbix
全栈可观测性（SaaS）	Datadog / New Relic
云厂商	CloudWatch / 云监控
大规模集群	Prometheus + Thanos/Mimir

学习路径

入门：理解可观测性三支柱，安装 Prometheus + Grafana
进阶：PromQL 查询、告警规则、Exporter 接入
实践：监控 K8s 集群、中间件、自定义应用指标
高级：Thanos 长期存储、告警收敛、SLO 体系

相关链接

知识地图
可观测性三支柱
监控体系架构
监控层级
工具选型
学习路径
相关链接