THE OPS FIELD MANUAL · 2026 EDITION

K8s 故障
排查手册

高频生产事故的诊断、定位、修复路径全集——按场景速查,不是大杂烩。
3 卷 26 个故障案例 面向运维工程师

排查的核心不是背命令,而是建立诊断模型:从现象反推架构,从架构定位组件,从组件确认配置。本手册按 K8s 三个核心域分卷——Pod 生命周期网络与服务存储与集群核心,每个案例都给出症状、根因、命令、解决方案。

I
VOLUME ONE
Pod 生命周期
排查
容器为什么起不来?为什么反复重启?为什么删不掉?Pod 状态本身就是诊断信号。
8 CASES
  • Pending 调度失败
  • ContainerCreating 卡住
  • ImagePullBackOff
  • CrashLoopBackOff
  • OOMKilled · Evicted
  • Terminating 卡死
  • Liveness 探针失败
开始阅读
II
VOLUME TWO
网络与服务
排查
Service 不通、DNS 失败、Ingress 502、跨节点 Pod 隔空——网络是 K8s 最复杂的洋葱。
8 CASES
  • Service ClusterIP 不通
  • DNS 解析失败
  • Ingress 502/503/504
  • 跨节点 Pod 通信失败
  • NodePort 外部不通
  • NetworkPolicy 误伤
  • Endpoints 为空
  • kube-proxy 异常
开始阅读
III
VOLUME THREE
存储 / 调度 /
集群核心
PVC、节点、etcd、API Server、证书——影响范围最大的故障域,也是面试高频考点。
10 CASES
  • PVC Pending 不绑定
  • 挂载失败 · PV Released
  • StatefulSet 数据丢失
  • 节点 NotReady · 磁盘压力
  • API Server 慢 · etcd 异常
  • 证书过期
  • kubectl 连不上集群
开始阅读

怎么用这本手册?

01 · 出问题时

按现象定位卷:容器有问题查 I,通信不通查 II,集群层面问题查 III。每个案例都有"症状 → 根因 → 命令 → 修复"四段式结构,直接照命令敲。

02 · 没事时

当作 K8s 诊断模型的训练手册。每个案例都附带原理说明(比如 PV 生命周期、退出码语义、QoS 等级),理解了才能举一反三。

03 · 面试前

按案例编号过一遍,口述每个故障的"现象+根因+排查思路"。面试官最爱问"印象深刻的故障",这本手册就是弹药库。