知识地图
可观测性三支柱
| 支柱 | 用途 | 代表工具 | 数据特点 |
|---|
| Metrics(指标) | "发生了什么" | Prometheus | 时序数值,聚合分析 |
| Logging(日志) | "为什么发生" | ELK / Loki | 非结构化文本,全文搜索 |
| Tracing(链路追踪) | "在哪里发生" | Jaeger / Tempo | 分布式调用链 |
三者结合才能完整解决问题:Metrics 发现异常 → Tracing 定位服务 → Logging 排查根因。
监控体系架构
监控层级
| 层级 | 监控对象 | 关键指标 |
|---|
| 基础设施 | CPU / 内存 / 磁盘 / 网络 | 使用率、IOPS、带宽 |
| 容器 & K8s | Pod / Node / Deployment | 重启次数、Pending、资源使用 |
| 中间件 | MySQL / Redis / Kafka | 连接数、QPS、延迟、慢查询 |
| 应用层 | API / 微服务 | QPS、错误率、P99 延迟 |
| 业务层 | 订单 / 支付 / 注册 | 成功率、转化率、GMV |
- 延迟(Latency):请求耗时
- 流量(Traffic):请求速率
- 错误(Errors):错误率
- 饱和度(Saturation):资源使用率
工具选型
| 场景 | 推荐方案 |
|---|
| 通用监控(云原生) | Prometheus + Grafana |
| 传统主机监控 | Zabbix |
| 全栈可观测性(SaaS) | Datadog / New Relic |
| 云厂商 | CloudWatch / 云监控 |
| 大规模集群 | Prometheus + Thanos/Mimir |
学习路径
- 入门:理解可观测性三支柱,安装 Prometheus + Grafana
- 进阶:PromQL 查询、告警规则、Exporter 接入
- 实践:监控 K8s 集群、中间件、自定义应用指标
- 高级:Thanos 长期存储、告警收敛、SLO 体系
相关链接