广深运维三档技能对比

LEVEL 01 · JUNIOR

初级运维工程师

0 – 2 年经验 · 入门档

8–15K/月

能力定位：会用工具，能干活，出问题会查日志。熟悉常用服务部署，能写基础脚本，跟着流程走

LEVEL 02 · MID

中级运维 / 初级 DevOps

2 – 5 年经验 · 主力档

15–25K/月

能力定位：能独立设计方案，搭建整套系统，定位并解决线上问题。K8s + CI/CD + 监控全套

LEVEL 03 · SENIOR

高级运维 / SRE / 架构师

3 – 5 年+（需大规模生产）

25–50K/月

能力定位：能做架构决策，优化大规模系统，主导技术方案，带项目和团队

初级 / Junior

中级 / Mid-Level

高级 / Senior

初级运维工程师

薪资：8–15K / 月 经验：0–2 年 广深岗位密度：★★★★★（供大于求） 竞争烈度：高

🐧Linux 基础操作

进程 & 资源查看top / htop / ps aux / iotop重点：看懂 CPU/内存/IO 哪个高，找到对应进程 PID
网络工具netstat -tlnp / ss -s / lsof -i查端口占用、连接数，快速定位网络问题
文件权限chmod / chown / umask / ACL（setfacl）理解 rwx、特殊位（SUID/SGID/Sticky）
用户管理useradd / usermod / sudo / /etc/sudoers多用户环境下权限隔离是基本功
服务管理systemd / systemctl start|stop|enable|status会写简单 unit 文件，知道启动依赖关系
磁盘存储fdisk / parted / mount / df -h / du / LVM 基础磁盘满了怎么查、怎么扩容，LVM 快照备份
日志查看tail -f / grep / journalctl -u nginx --since today实时跟日志是排障第一步
定时任务crontab -e，理解五段式时间格式生产中备份、巡检、清理全靠它

⚙️Shell 脚本编程

三剑客awk 字段处理 / sed 替换 / grep 过滤awk '{print $1,$3}' 是日常高频操作
流程控制if-elif-else / for / while / case / 函数能写超过 50 行逻辑的脚本
变量 & 参数$0~$9 / $# / $@ / ${变量:-默认值}脚本入参规范化，避免写死路径
正则表达式基本正则（BRE）+ 扩展正则（ERE）grep -E / sed -r 过滤 IP、日期等格式
实用脚本场景备份 / 日志清理 / 巡检报告 / 服务重启告警面试必考：写个脚本监控 Nginx 进程并告警
Python 入门基础语法、文件操作、requests 模块能改 Python 脚本、看懂别人写的运维工具

🌐网络基础

核心协议TCP/IP 四层 / HTTP/HTTPS / DNS 解析流程理解三次握手、TIME_WAIT 大量出现怎么处理
防火墙iptables 四表五链 / firewalld 区域管理添加/删除规则、NAT 转发、端口映射
排查工具ping / traceroute / dig / nslookup / curl -v按层排查：DNS→路由→TCP→应用
SSH 进阶密钥认证 / config 文件 / 本地/远程端口转发ssh -L / -R / -D 隧道，跳板机穿透
基础网络概念子网划分 / VLAN / 路由 / NAT懂网段划分，能配静态路由

🔗Web 服务 - Nginx

核心配置server / location / upstream 块结构能从零写一个反向代理 + 负载均衡配置
负载均衡策略轮询（默认）/ ip_hash / least_conn / weight理解各策略适用场景
HTTPS 配置Let's Encrypt / Certbot 自动申请 / 证书更新HSTS / HTTP→HTTPS 强制跳转配置
日志与切割access_log / error_log 格式 / logrotate 配置按天切割、保留 30 天、压缩归档
常见调优worker_processes / worker_connections / gzip 压缩基础性能配置，面试高频考点

🗄️数据库基础

MySQL 安装运维二进制包安装 / my.cnf 配置 / 慢查询开启slow_query_log、long_query_time 设置
备份恢复mysqldump 全量备份 / binlog 增量 / 定时备份脚本--single-transaction 热备，理解备份窗口
主从复制binlog + relay log 原理 / GTID 模式 / 延迟监控Seconds_Behind_Master 怎么看，延迟怎么处理
Redis 基础五种数据结构 / 常用命令 / RDB + AOF 持久化理解 RDB 快照 vs AOF 日志各自优缺点
慢查询分析pt-query-digest / EXPLAIN 看执行计划能看懂 type=ALL（全表扫描）意味着什么

🐳容器入门

Docker 核心操作run/exec/ps/logs/inspect/rm/rmi能熟练管理容器生命周期
Dockerfile 编写FROM / RUN / COPY / ADD / CMD / ENTRYPOINT / ENV理解分层原理，会减小镜像体积
docker-compose编写多容器编排 YAML / depends_on / volumes / networks本地开发环境、小型项目常用
镜像管理Harbor / Docker Hub / 私有仓库推拉tag 规范、生产镜像不用 latest
Git 基础clone / add / commit / push / pull / branch / merge理解分支模型（gitflow），能处理简单冲突

bash
#!/bin/bash
# 初级典型面试题：监控关键服务存活，挂了自动拉起并告警

SERVICES=("nginx""mysql""redis")
LOG="/var/log/service_monitor.log"
MAIL="ops-team@company.com"

forSERVICEin"${SERVICES[@]}";do
if! systemctl is-active --quiet $SERVICE;then

                        echo "[$(date '+%Y-%m-%d %H:%M:%S')] WARN: $SERVICE is DOWN, restarting...">>$LOG

                        systemctl restart $SERVICE

# 重启后等 3 秒确认是否恢复

                        sleep 3
if systemctl is-active --quiet $SERVICE;then
STATUS="已恢复"
else
STATUS="重启失败，请人工介入！"
fi


                        echo "[告警] $SERVICE $STATUS @ $(hostname)"| mail -s "[运维告警] $SERVICE 异常"$MAIL
fi
done

典型 JD 示例（广州某互联网公司 · 运维工程师 · 10–13K）

负责公司服务器日常巡检、维护，能独立处理常见系统/网络故障
编写 Shell 脚本实现自动化任务：备份、监控告警、日志清理、巡检报告
熟悉 Nginx、MySQL、Redis 安装配置与基本调优，理解主从原理
了解 Docker 基础使用，能编写 Dockerfile，会用 docker-compose 搭环境
配合研发完成上线部署，发布期间驻守并处理异常问题
参与 7×24 小时值班，响应告警，按照 SOP 处理常见故障

⚠ 面试侧重：你到底会不会用？（考操作细节）

Linux CPU 高了怎么查？说出完整命令链路（top→ps→perf/strace）
Nginx 配置反向代理 + 负载均衡，三种 upstream 策略区别和使用场景
MySQL 主从原理 + 如何搭建？binlog 三种格式（statement/row/mixed）的区别
Shell 当场写：找出 /var/log 下 7 天前的 .log 文件，压缩后删除原文件
Docker 镜像分层原理？COPY 和 ADD 的区别？layer cache 如何利用
服务器磁盘突然报 100%，你怎么处理？说完整流程

📈 从初级升中级：3–6 个月关键补课路径

深入 Kubernetes：本地搭 k3s/minikube，把所有核心资源对象跑一遍，理解 Pod 调度流程

补 Python 进阶：用 Python 写运维工具，比如调用云厂商 API 自动开关机、批量操作

打通 CI/CD 完整链路：Jenkins Pipeline → 构建镜像 → 推 Harbor → Helm 部署到 K8s

搭 监控全家桶：Prometheus + Grafana + Alertmanager，亲手写告警规则和 PromQL

中级运维工程师 / 初级 DevOps

薪资：15–25K / 月 经验：2–5 年 广深岗位密度：★★★★★（需求量最大） 你的匹配度：接近达标

🐧Linux 进阶调优

故障排查四象限CPU / 内存 / IO / 网络系统性分析CPU: top→perf top→火焰图；内存: free/vmstat/OOM killer；IO: iostat/iotop/blktrace；网络: ss/tcpdump/sar
内核参数调优sysctl.conf：net.ipv4.tcp_* / vm.swappiness / fs.file-max高并发场景必须懂 TCP 参数优化（backlog/keepalive/fin_wait）
strace & perfstrace -p PID 追踪系统调用 / perf stat / perf record定位"CPU高但没干活"的幽灵进程
tcpdump 抓包tcpdump -i eth0 -nn port 8080 -w dump.pcap配合 Wireshark 分析 TCP 重传、连接拒绝原因
资源限制ulimit -n（文件描述符） / cgroups v1/v2高并发服务 "too many open files" 是经典坑

☸️Kubernetes 核心

工作负载Deployment / StatefulSet / DaemonSet / Job / CronJobStatefulSet vs Deployment 适用场景，滚动更新策略配置
网络体系Service（ClusterIP/NodePort/LB）/ Ingress / NetworkPolicykube-proxy iptables 模式 vs ipvs 模式流量转发原理
配置管理ConfigMap / Secret（Opaque/TLS/docker-registry）/ env/volume 挂载Secret 不要 base64 明文存 Git，要用 Sealed Secrets 或 Vault
存储PV / PVC / StorageClass 动态供给 / volumeModeCSI 驱动原理，生产用 Ceph RBD / NFS / 云盘
调度进阶nodeSelector / 亲和性反亲和性 / 污点容忍 / PodDisruptionBudget确保关键服务在不同节点打散，不被驱逐
故障排查CrashLoopBackOff / OOMKilled / ImagePullBackOff / Pendingkubectl describe pod / logs --previous，能说出每种状态的 5+ 原因

🚀CI/CD 流水线

Jenkins Pipeline声明式 Jenkinsfile / 共享库 / 多分支流水线能设计可复用的 shared library，支持多项目统一流水线
GitLab CI/CD.gitlab-ci.yml / stages / artifacts / cache / Runner 管理GitLab Runner 注册与配置，executor 选型（docker/k8s）
完整链路设计代码提交→单测→镜像构建→安全扫描→推仓库→部署→冒烟测试每个阶段有质量门禁，失败自动回滚，Slack/钉钉通知
发布策略滚动发布 / 蓝绿部署 / 金丝雀/灰度发布能用 Nginx/Ingress 权重实现 10% 灰度流量切分
质量门禁SonarQube 代码质量 / 单测覆盖率 / 镜像漏洞扫描Trivy 扫镜像，Critical 级别漏洞必须修复才能过门禁

📊监控可观测性

Prometheus 体系Exporter 接入 / PromQL 查询 / 抓取配置 / 联邦集群rate() / increase() / histogram_quantile() 是高频 PromQL 函数
GrafanaDashboard 设计 / 模板变量 / 数据源 / 告警规则能从头设计业务监控大盘，不只会导入别人的 JSON
Alertmanager分级告警 / 路由树 / 静默 / 抑制 / 通知聚合避免告警风暴：group_wait + group_interval 配置
ELK 日志栈Filebeat 采集 → Kafka 缓冲 → Logstash 解析 → ES 存储Kibana 查询语法（KQL），Index 分片/副本规划
日志规范结构化日志（JSON）/ 统一 traceId / 日志级别规范没有 traceId 的日志在微服务场景下几乎没法排查

🔧中间件高可用

MySQL 高可用MHA 自动主从切换 / MGR 多主 / ProxySQL 读写分离MHA 切换时间 < 30s，掌握 binlog 位点对齐和 GTID 切换
Redis 集群Sentinel 哨兵模式 / Redis Cluster 16384 槽分片Cluster 脑裂保护、热点 key 处理（本地缓存/拆分）
Kafka集群部署 / Topic 分区设计 / 消费组 / 监控（JMX）消息积压怎么处理，Leader 均衡，ISR 缩容告警
负载均衡Keepalived + LVS / HAProxy / Nginx upstreamVIP 漂移原理，健康检查配置，会话保持
消息队列对比Kafka vs RabbitMQ vs RocketMQ 适用场景广深大厂多用 Kafka，金融场景多用 RocketMQ

☁️公有云（广深刚需）

腾讯云 / 阿里云至少深入掌握一家，CVM/ECS / VPC / 安全组 / CLB/SLB广深企业 90% 在用腾讯云或阿里云，不会等于硬伤
托管 K8sTKE（腾讯）/ ACK（阿里），节点池管理、升级策略托管 K8s 和自建区别：Master 不用自己维护，但控制面受限
对象存储COS / OSS：生命周期策略 / 跨区域复制 / CDN 加速日志归档、镜像存储、静态资源托管标准方案
网络架构VPC 划分 / 私网互联（CCN/CEN）/ 弹性公网 IP多可用区容灾架构是设计题高频考点
云数据库云 MySQL / Redis / Elasticsearch 托管服务使用托管服务 vs 自建：成本、运维复杂度权衡

🐍Python 开发能力

运维工具开发批量操作脚本 / 数据处理 / 报表生成paramiko SSH 批量执行、pandas 处理 CSV 巡检报告
API 对接requests 调用 RESTful API / 云厂商 SDK对接钉钉/企微 Webhook 告警，调用云 API 管理资源
Web 框架基础Flask / FastAPI 写简单运维 API 服务给监控系统写回调 webhook、暴露自定义 metrics
Go 入门基本语法 / 能读懂 K8s 相关 Go 代码 / 改简单工具看懂 client-go 基础用法，为升高级打基础

🔐安全 & 配置管理

AnsiblePlaybook / Role / 变量优先级 / 自定义模块用 Role 组织代码，Ansible Vault 加密敏感配置
堡垒机JumpServer / Teleport：操作审计 / 权限矩阵所有生产操作走堡垒机，事后可审计是合规要求
备份容灾全量+增量备份策略 / 异地备份 / 恢复演练备份要定期验证可恢复性，很多公司备份从未恢复过
证书管理cert-manager（K8s 内）/ ACME 协议 / 证书过期监控用 Prometheus 监控证书到期时间，提前 30 天告警

🗃️Helm & 容器生态

Helm Chart 开发编写 templates / values.yaml / _helpers.tpl / NOTES.txt会把公司内部应用打成可复用的 Helm Chart
镜像优化多阶段构建（multi-stage）/ distroless / .dockerignoreJava 应用镜像从 1GB 压缩到 100MB 以内
Harbor 企业级RBAC 权限 / 镜像扫描 / 垃圾回收 / 复制策略生产 Harbor 磁盘管理、定期 GC、跨区域镜像同步

Jenkinsfile
// 中级标准配置：Jenkins Pipeline 构建→镜像→K8s 部署→失败自动回滚
pipeline{
agent{label'k8s-agent'}
environment{
REGISTRY='harbor.company.com'
IMAGE="${REGISTRY}/app/${env.JOB_NAME}:${env.BUILD_NUMBER}"
}
stages{
stage('单元测试'){
steps{sh'pytest tests/ --cov=app --cov-fail-under=70'}// 覆盖率低于70%直接失败
}
stage('镜像构建 & 扫描'){
steps{
sh'docker build -t ${IMAGE} .'
sh'trivy image --exit-code 1 --severity CRITICAL ${IMAGE}'// CRITICAL 漏洞拦截
sh'docker push ${IMAGE}'
}
}
stage('灰度部署 10%'){
steps{
sh'helm upgrade --install app-canary ./chart \'
'--set image.tag=${BUILD_NUMBER} \'
'--set replicaCount=1 -n production'
sh'sleep 60 && kubectl rollout status deploy/app-canary -n production'
}
}
stage('全量发布'){
steps{sh'helm upgrade app ./chart --set image.tag=${BUILD_NUMBER} -n production'}
}
}
post{
failure{
sh'helm rollback app -n production'// 失败自动回滚上一版
dingTalkmessage:"❌ 发布失败：${env.JOB_NAME} #${env.BUILD_NUMBER}"
}
success{dingTalkmessage:"✅ 发布成功：${env.JOB_NAME} #${env.BUILD_NUMBER}"}
}
}

典型 JD 示例（深圳南山 K8s 运维 DevOps · 18–25K）

负责 Kubernetes 集群生命周期管理（部署、升级、扩缩容、故障处理），生产集群 50+ 节点优先
熟练使用 Shell / Python 编写运维工具，有实际工具或平台开发经验加分
熟悉 Nginx、Redis、MySQL、Kafka、ES 等组件的集群部署、日常调优与应急处理
熟练使用 Prometheus + Grafana 建立监控体系，会写 PromQL 和配置多级告警
能搭建和维护 Jenkins / GitLab CI 完整流水线，支持灰度发布、自动回滚
有阿里云 / 腾讯云实操经验，了解 TKE/ACK、SLB、VPC、RDS 等核心产品

⚠ 面试侧重：为什么这么做？踩过什么坑？

K8s Pod 一直 CrashLoopBackOff，排查思路？能说出 8+ 个可能原因
Service ClusterIP / NodePort / LoadBalancer 流量转发链路，iptables 规则怎么看
Prometheus 数据量爆炸了怎么办？讲讲 Thanos 或 VictoriaMetrics 方案选型
Jenkins Pipeline 怎么实现灰度发布？5% 流量切分怎么做，观察哪些指标再放量
MySQL 主从延迟怎么定位？并行复制参数怎么调？半同步复制原理？
线上 CPU 突然 100%，从收到告警到定位根因的完整操作过程是什么

📈 从中级升高级：需要突破的 3 个门槛

Go 语言必须过关：能独立开发工具，能看懂 K8s 源码，能写简单 Operator。这是高级岗核心门槛

大规模生产经验：百节点+ K8s 集群、百亿+ 流量，有真实故障排查和优化案例，能量化说出收益

从执行走向设计：不只是维护系统，要能设计系统。SLO / 容量规划 / 架构评审都要能主导

高级运维工程师 / SRE / DevOps 架构师

薪资：25–50K / 月 经验：3–5 年+（含大规模生产必须） 广深岗位密度：★★★☆☆（需求精准，竞争激烈） 核心门槛：Go + 源码 + 架构设计经验

☸️K8s 深度 & 源码

核心组件源码apiserver（认证/准入/存储链）/ scheduler（Predicate+Priority）/ kubelet（PLEG/cAdvisor）面试问"etcd watch 机制怎么触发资源变更"，要能画出完整链路
CNI 深度Calico BGP 模式 / Cilium eBPF 数据面 / Flannel VXLAN 原理能解释 Pod 跨节点通信的完整数据包路径，包括 iptables/eBPF 规则
CSI & CRI存储接口（CSI Driver 开发）/ 运行时接口（containerd/CRI-O）容器 rootfs / overlayfs 文件系统原理，containerd snapshotter
大规模调优500+ 节点 etcd 压测调优 / apiserver 限流 / 控制面 HAetcd compaction/defrag 策略，apiserver --max-requests-inflight 调优
多集群联邦Karmada（推荐）/ Clusternet / KubeFed v2 选型对比Karmada 传播策略（PropagationPolicy）+ 差异化配置（OverridePolicy）
Operator 开发kubebuilder / controller-runtime / client-go informer 机制Reconcile loop 幂等设计、工作队列限速、finalizer 防止资源泄漏

🕸️服务网格 & GitOps

Istio 深度VirtualService / DestinationRule / 流量镜像 / 熔断 / mTLSEnvoy xDS 协议（LDS/RDS/CDS/EDS），理解控制面 Pilot 下发配置原理
流量治理能力按 Header/权重灰度 / 故障注入（延迟/错误码）/ 超时重试能在 Istio 上实现精细化流量管控，支撑 AB 测试和灰度发布
ArgoCD GitOpsApplication / AppProject / RBAC / Sync Policy / HooksGit 即事实来源，自动同步+人工审批结合，支持多环境管理
Tekton 流水线Pipeline / Task / Trigger / EventListener / ClusterTask云原生 CI/CD，比 Jenkins 更 K8s-native，大厂逐步迁移中
Linkerd轻量服务网格 / 自动 mTLS / 延迟感知负载均衡比 Istio 轻量，适合不需要复杂流量治理的中小规模场景

🔭可观测性全栈

Metrics 大规模Thanos（全局查询+长存储）/ VictoriaMetrics（高性能）Thanos Ruler 全局告警，VictoriaMetrics 比原生 Prometheus 内存省 7 倍
分布式链路追踪Jaeger / SkyWalking / Zipkin / OpenTelemetry SDKTrace → Span 模型，采样策略（头部/尾部采样），性能影响评估
OpenTelemetry统一观测标准：Metrics + Logs + Traces 三位一体OTel Collector pipeline 配置，替换多套 agent 为单一采集方案
eBPF 可观测Pixie（无侵入 K8s 观测）/ Cilium Tetragon（安全可观测性）eBPF 无需修改应用代码即可获取 L7 流量数据，是下一代观测技术
日志平台建设Loki + Promtail / 日志平台架构设计 / 冷热分层存储Loki 比 ES 成本低 10 倍，适合日志量大但查询不复杂的场景

⚙️Go 语言 & 开发能力

Go 语言深度goroutine / channel / context / sync 包 / 内存模型会写高并发安全的代码，理解 GC 原理（三色标记），能用 pprof 定位内存泄漏
K8s 生态开发client-go informer/lister/workqueue / kubebuilder scaffoldInformer 缓存机制避免直接打 apiserver，WorkQueue 限速防止雪崩
Operator 实战CRD 设计（Validation Webhook）/ 控制器幂等逻辑 / Status 子资源生产 Operator 必须处理 finalizer、owner reference、generation 版本控制
运维平台开发CMDB 资产管理 / 工单系统 / 发布平台 / 容量管理后端 Go + 前端 React/Vue，对接 K8s API 实现可视化操作
前端基础React / Vue 能写简单页面 / Ant Design / Element Plus不需要精通，能改现有页面、对接接口、不报错就行

🏗️IaC & 多云架构

TerraformResource / Data / Module / Remote State / Workspace用 Terraform 管理腾讯云 / 阿里云资源，支持灾备环境一键复制
Pulumi用 Python/Go/TypeScript 代码定义基础设施比 Terraform HCL 更灵活，适合有编程能力的团队
CrossplaneK8s 风格声明式云资源管理，XRD/Composition让开发自助申请云资源（数据库、缓存），运维只需维护 Composition 模板
多云 & 混合云多云成本对比 / 流量调度 / 统一身份认证FinOps 理念：按需使用，Spot 实例降本，资源利用率持续监控
FinOps 成本优化资源使用率分析 / Spot/竞价实例 / 预留实例采购生产中把 K8s 利用率从 15% 提升到 50%+ 是常见降本项目

🧪混沌工程 & SRE

ChaosMeshK8s 原生混沌平台：Pod 故障 / 网络延迟 / 磁盘故障 / 时间偏移Workflow 编排混沌场景，通过 Grafana 面板观察系统行为
ChaosBlade阿里开源：支持 CPU / 内存 / 磁盘 / 网络 / JVM 故障注入Java 应用 JVM 故障注入（方法延迟/异常）是电商大促压测必备
SLO / SLA 管理错误预算 / 可用性建模 / Burn Rate 告警Burn Rate 告警比简单可用率告警更及时，能提前 1 小时发现趋势
容量规划压测（k6 / wrk / JMeter）/ 性能基线 / 扩缩容策略每季度压测验证容量，大促前 Runbook 提前演练
故障复盘5-Why 根因分析 / 时间线还原 / 改进 Action 追踪好的 RCA 不只找凶手，更要优化系统让同类故障不再发生

🔒安全合规

K8s 安全加固CIS Benchmark / PSA（Pod Security Admission）/ OPA Gatekeeper生产集群定期跑 kube-bench 评分，不合规项必须整改
镜像安全Trivy / Clair / Anchore：集成到 CI 门禁 + 运行时扫描不只扫 CI 阶段，运行中的镜像也要周期扫描（可能新增 CVE）
密钥 & 敏感信息HashiCorp Vault / Sealed Secrets / External Secrets OperatorK8s Secret 只是 base64，生产环境必须加密存储，Vault 动态生成凭证
合规审计等保 2.0（三级）/ SOC 2 Type II / ISO 27001 配合配合安全团队提供日志留存（6 个月+）、操作审计、访问控制证据
网络安全零信任网络（mTLS + SPIFFE/SPIRE）/ 微隔离服务间通信全加密，最小权限原则，NetworkPolicy 白名单模式

🗄️数据库 & 大数据运维

分布式数据库TiDB（HTAP）/ OceanBase（金融级）/ CockroachDBTiDB 适合从 MySQL 平迁的大数据量场景，需要运维 TiKV + PD 组件
分库分表ShardingSphere-Proxy / MyCat：分片策略 + 路由规则单表 5000 万行以上考虑分片，分片键选择影响查询效率
大数据运维Hadoop YARN / Spark 集群 / Flink on K8s / Hive Metastore数仓团队需要运维支撑，K8s 化是大数据基础设施趋势
数据库高可用架构MGR + ProxySQL / Orchestrator 自动 FailoverOrchestrator 可视化 MySQL 拓扑，自动 Failover < 10s

🎯架构 & 软技能

系统架构设计百万 QPS 架构 / 容量规划 / 高可用 / 异地多活面试：设计支撑 1000+ 节点 K8s 集群的基础设施方案，能画出架构图
技术方案评审主导技术选型 / RFC 文档撰写 / 架构决策记录（ADR）能写有说服力的方案文档，推动技术债治理和架构演进
团队协作指导初中级工程师 / On-call 文化 / 故障复盘 / 知识沉淀技术布道：写内部分享、Runbook、架构决策文档
跨团队推动与研发 / 安全 / 产品协作，推动可观测性 / DevSecOps 落地高级运维的核心价值：推动工程文化改进，不只是维护系统

Go
// 高级岗核心能力：Go 开发 K8s Operator（controller-runtime 框架）
packagemain

import(
"context"
"fmt"

                    appsv1 "k8s.io/api/apps/v1"

                    corev1 "k8s.io/api/core/v1"
"sigs.k8s.io/controller-runtime/pkg/client"
"sigs.k8s.io/controller-runtime/pkg/reconcile"
)

// Reconcile 是控制器核心：持续对比「期望状态」与「实际状态」，做出调整
func(r*AppReconciler)Reconcile(ctxcontext.Context,reqreconcile.Request)(reconcile.Result,error){
// 1. 从缓存读取自定义资源（走 Informer 缓存，不直接打 apiserver）
app:=&v1.MyApp{}
iferr:=r.Get(ctx,req.NamespacedName,app);err!=nil{
returnreconcile.Result{},client.IgnoreNotFound(err)// 资源已删除，忽略
}

// 2. 防止 finalizer 导致删除卡住（生产必须处理）
if!app.DeletionTimestamp.IsZero(){
returnr.handleDeletion(ctx,app)
}

// 3. 对比期望 vs 实际，差异调整（幂等！重复调谐不产生副作用）
deploy:=&appsv1.Deployment{}
iferr:=r.Get(ctx,req.NamespacedName,deploy);err!=nil{
returnreconcile.Result{},r.createDeployment(ctx,app)// 不存在则创建
}

// 4. 更新 Status 子资源（记录观察状态，供 kubectl get 查看）
app.Status.AvailableReplicas=deploy.Status.AvailableReplicas
_=r.Status().Update(ctx,app)

fmt.Printf("✅ Reconciled: %s/%s\n",app.Namespace,app.Name)
returnreconcile.Result{},nil
}

典型 JD 示例（深圳 K8s 架构师 / 高级 SRE · 30–50K · 某大厂）

负责公司容器云平台（1000+ 节点 K8s）的架构设计、容量规划与持续优化
深入理解 K8s 核心组件工作原理，有 Operator / CRD 独立开发经验（代码可演示）
熟练使用 Go 语言，能独立开发运维平台、工具链、K8s 扩展组件
主导过大规模生产环境故障排查，能清晰描述根因、临时措施和永久改进
熟悉 Istio / Linkerd 服务网格，有流量治理生产落地经验
具备 SRE 意识：SLO 管理、错误预算、混沌工程、容量规划经验优先

⚠ 面试侧重：架构方案 + 源码理解 + 量化业务收益

设计支撑 1000+ 节点的 K8s 集群：etcd / apiserver 高可用方案，etcd 如何扩展
讲讲你写过的 Operator：CRD 设计上踩过哪些坑？Reconcile 幂等如何保证
K8s Pod 调度全流程：scheduler 源码里 Predicate（过滤）和 Score（打分）如何实现
你负责过最大的故障是什么？根因 + 临时处置 + 根治方案 + 后续预防机制，量化说
Istio 流量管理底层：Envoy xDS 协议（LDS/RDS/CDS/EDS），控制面如何下发配置
多集群方案选型：Karmada vs Clusternet vs KubeFed v2，各自优缺点和适用场景

📈 维持高级竞争力：持续要做的事

关注 CNCF Landscape：每年都有新技术（eBPF、Wasm、AI Infra），要有判断力而不是盲目追新

量化你的价值：故障减少多少？成本节省多少？效率提升多少？高薪谈判的底气来自可量化的收益

输出影响力：内部技术分享 / 博客 / GitHub / CNCF 社区贡献，让业界知道你的存在

三档技术栈横向完整对比

技术维度	🔵 初级 · 8–15K	🟡 中级 · 15–25K	🟣 高级 · 25–50K
Linux	基础命令服务管理日志查看	性能调优四象限排障strace/tcpdump	eBPF 内核追踪火焰图内核参数深度
脚本/编程	Shell 三剑客Python 入门	Python 工具开发Go 入门/读懂Flask/FastAPI	Go 熟练开发Operator 开发源码二次开发
容器 & K8s	Docker 基础Dockerfiledocker-compose	K8s 全套核心资源Helm Chart 开发Harbor 企业级	K8s 源码级CNI/CSI/CRI多集群联邦
CI/CD	了解 JenkinsGit 基础操作	Jenkins PipelineGitLab CI灰度/蓝绿发布	ArgoCD GitOpsTekton 云原生流水线平台开发
监控 & 告警	Zabbix 基础看监控图	Prometheus 体系PromQL 编写Alertmanager 多级	Thanos/VictoriaMetricsOpenTelemetryeBPF 可观测
日志	grep / tail基础排障	ELK 完整链路结构化日志规范Kafka 缓冲	Loki 大规模链路追踪接入日志平台建设
配置管理	手工部署Ansible 了解	Ansible Playbook/RoleVault 加密配置自定义模块	Terraform 多云Pulumi / CrossplaneFinOps 成本优化
数据库	MySQL 主从Redis 基础备份恢复	MHA/MGR 高可用Redis Sentinel/ClusterKafka 集群运维	TiDB/OceanBase分库分表大数据栈运维
网络	TCP/IP 基础iptables 规则	LVS/HAProxy/Keepalived云 VPC 架构负载均衡深度	Calico BGP 模式Cilium eBPF零信任网络
公有云	了解基础产品	腾讯云/阿里云熟练TKE/ACK 托管 K8sCOS/OSS/CDN	多云架构设计FinOps 降本混合云打通
安全	堡垒机使用基础权限管理	cert-manager 证书镜像漏洞扫描Trivy CI 集成	Vault 密钥管理OPA 策略引擎等保/SOC2 合规
软技能	执行任务按 SOP 处理	独立设计方案跨团队协作故障复盘	架构决策 & 评审带团队 & 布道SLO 管理体系