2026 广深市场数据

广深运维三档技能完整分析报告

Linux / DevOps 求职定位 · 初级 → 中级 → 高级 完整技能拆解 · BOSS直聘 / 拉勾 / 猎聘数据综合
LEVEL 01 · JUNIOR
初级运维工程师
0 – 2 年经验 · 入门档
8–15K/月
能力定位:会用工具,能干活,出问题会查日志。熟悉常用服务部署,能写基础脚本,跟着流程走
LEVEL 02 · MID
中级运维 / 初级 DevOps
2 – 5 年经验 · 主力档
15–25K/月
能力定位:能独立设计方案,搭建整套系统,定位并解决线上问题。K8s + CI/CD + 监控全套
LEVEL 03 · SENIOR
高级运维 / SRE / 架构师
3 – 5 年+(需大规模生产)
25–50K/月
能力定位:能做架构决策,优化大规模系统,主导技术方案,带项目和团队
初级 / Junior
中级 / Mid-Level
高级 / Senior

初级运维工程师

薪资:8–15K / 月 经验:0–2 年 广深岗位密度:★★★★★(供大于求) 竞争烈度:

🐧Linux 基础操作

  • 进程 & 资源查看top / htop / ps aux / iotop重点:看懂 CPU/内存/IO 哪个高,找到对应进程 PID
  • 网络工具netstat -tlnp / ss -s / lsof -i查端口占用、连接数,快速定位网络问题
  • 文件权限chmod / chown / umask / ACL(setfacl)理解 rwx、特殊位(SUID/SGID/Sticky)
  • 用户管理useradd / usermod / sudo / /etc/sudoers多用户环境下权限隔离是基本功
  • 服务管理systemd / systemctl start|stop|enable|status会写简单 unit 文件,知道启动依赖关系
  • 磁盘存储fdisk / parted / mount / df -h / du / LVM 基础磁盘满了怎么查、怎么扩容,LVM 快照备份
  • 日志查看tail -f / grep / journalctl -u nginx --since today实时跟日志是排障第一步
  • 定时任务crontab -e,理解五段式时间格式生产中备份、巡检、清理全靠它

⚙️Shell 脚本编程

  • 三剑客awk 字段处理 / sed 替换 / grep 过滤awk '{print $1,$3}' 是日常高频操作
  • 流程控制if-elif-else / for / while / case / 函数能写超过 50 行逻辑的脚本
  • 变量 & 参数$0~$9 / $# / $@ / ${变量:-默认值}脚本入参规范化,避免写死路径
  • 正则表达式基本正则(BRE)+ 扩展正则(ERE)grep -E / sed -r 过滤 IP、日期等格式
  • 实用脚本场景备份 / 日志清理 / 巡检报告 / 服务重启告警面试必考:写个脚本监控 Nginx 进程并告警
  • Python 入门基础语法、文件操作、requests 模块能改 Python 脚本、看懂别人写的运维工具

🌐网络基础

  • 核心协议TCP/IP 四层 / HTTP/HTTPS / DNS 解析流程理解三次握手、TIME_WAIT 大量出现怎么处理
  • 防火墙iptables 四表五链 / firewalld 区域管理添加/删除规则、NAT 转发、端口映射
  • 排查工具ping / traceroute / dig / nslookup / curl -v按层排查:DNS→路由→TCP→应用
  • SSH 进阶密钥认证 / config 文件 / 本地/远程端口转发ssh -L / -R / -D 隧道,跳板机穿透
  • 基础网络概念子网划分 / VLAN / 路由 / NAT懂网段划分,能配静态路由

🔗Web 服务 - Nginx

  • 核心配置server / location / upstream 块结构能从零写一个反向代理 + 负载均衡配置
  • 负载均衡策略轮询(默认)/ ip_hash / least_conn / weight理解各策略适用场景
  • HTTPS 配置Let's Encrypt / Certbot 自动申请 / 证书更新HSTS / HTTP→HTTPS 强制跳转配置
  • 日志与切割access_log / error_log 格式 / logrotate 配置按天切割、保留 30 天、压缩归档
  • 常见调优worker_processes / worker_connections / gzip 压缩基础性能配置,面试高频考点

🗄️数据库基础

  • MySQL 安装运维二进制包安装 / my.cnf 配置 / 慢查询开启slow_query_log、long_query_time 设置
  • 备份恢复mysqldump 全量备份 / binlog 增量 / 定时备份脚本--single-transaction 热备,理解备份窗口
  • 主从复制binlog + relay log 原理 / GTID 模式 / 延迟监控Seconds_Behind_Master 怎么看,延迟怎么处理
  • Redis 基础五种数据结构 / 常用命令 / RDB + AOF 持久化理解 RDB 快照 vs AOF 日志各自优缺点
  • 慢查询分析pt-query-digest / EXPLAIN 看执行计划能看懂 type=ALL(全表扫描)意味着什么

🐳容器入门

  • Docker 核心操作run/exec/ps/logs/inspect/rm/rmi能熟练管理容器生命周期
  • Dockerfile 编写FROM / RUN / COPY / ADD / CMD / ENTRYPOINT / ENV理解分层原理,会减小镜像体积
  • docker-compose编写多容器编排 YAML / depends_on / volumes / networks本地开发环境、小型项目常用
  • 镜像管理Harbor / Docker Hub / 私有仓库推拉tag 规范、生产镜像不用 latest
  • Git 基础clone / add / commit / push / pull / branch / merge理解分支模型(gitflow),能处理简单冲突
bash
#!/bin/bash
# 初级典型面试题:监控关键服务存活,挂了自动拉起并告警

SERVICES=("nginx" "mysql" "redis")
LOG="/var/log/service_monitor.log"
MAIL="ops-team@company.com"

for SERVICE in "${SERVICES[@]}"; do
    if ! systemctl is-active --quiet $SERVICE; then
        echo "[$(date '+%Y-%m-%d %H:%M:%S')] WARN: $SERVICE is DOWN, restarting..." >> $LOG
        systemctl restart $SERVICE

        # 重启后等 3 秒确认是否恢复
        sleep 3
        if systemctl is-active --quiet $SERVICE; then
            STATUS="已恢复"
        else
            STATUS="重启失败,请人工介入!"
        fi

        echo "[告警] $SERVICE $STATUS @ $(hostname)" | mail -s "[运维告警] $SERVICE 异常" $MAIL
    fi
done
典型 JD 示例(广州某互联网公司 · 运维工程师 · 10–13K)
  1. 负责公司服务器日常巡检、维护,能独立处理常见系统/网络故障
  2. 编写 Shell 脚本实现自动化任务:备份、监控告警、日志清理、巡检报告
  3. 熟悉 Nginx、MySQL、Redis 安装配置与基本调优,理解主从原理
  4. 了解 Docker 基础使用,能编写 Dockerfile,会用 docker-compose 搭环境
  5. 配合研发完成上线部署,发布期间驻守并处理异常问题
  6. 参与 7×24 小时值班,响应告警,按照 SOP 处理常见故障

⚠ 面试侧重:你到底会不会用?(考操作细节)

  • Linux CPU 高了怎么查?说出完整命令链路(top→ps→perf/strace)
  • Nginx 配置反向代理 + 负载均衡,三种 upstream 策略区别和使用场景
  • MySQL 主从原理 + 如何搭建?binlog 三种格式(statement/row/mixed)的区别
  • Shell 当场写:找出 /var/log 下 7 天前的 .log 文件,压缩后删除原文件
  • Docker 镜像分层原理?COPY 和 ADD 的区别?layer cache 如何利用
  • 服务器磁盘突然报 100%,你怎么处理?说完整流程

📈 从初级升中级:3–6 个月关键补课路径

1
深入 Kubernetes:本地搭 k3s/minikube,把所有核心资源对象跑一遍,理解 Pod 调度流程
2
Python 进阶:用 Python 写运维工具,比如调用云厂商 API 自动开关机、批量操作
3
打通 CI/CD 完整链路:Jenkins Pipeline → 构建镜像 → 推 Harbor → Helm 部署到 K8s
4
监控全家桶:Prometheus + Grafana + Alertmanager,亲手写告警规则和 PromQL
5
注册 腾讯云/阿里云免费账号,实际操作 TKE/ACK,广深公司 90% 用公有云

中级运维工程师 / 初级 DevOps

薪资:15–25K / 月 经验:2–5 年 广深岗位密度:★★★★★(需求量最大) 你的匹配度:接近达标

🐧Linux 进阶调优

  • 故障排查四象限CPU / 内存 / IO / 网络 系统性分析CPU: top→perf top→火焰图;内存: free/vmstat/OOM killer;IO: iostat/iotop/blktrace;网络: ss/tcpdump/sar
  • 内核参数调优sysctl.conf:net.ipv4.tcp_* / vm.swappiness / fs.file-max高并发场景必须懂 TCP 参数优化(backlog/keepalive/fin_wait)
  • strace & perfstrace -p PID 追踪系统调用 / perf stat / perf record定位"CPU高但没干活"的幽灵进程
  • tcpdump 抓包tcpdump -i eth0 -nn port 8080 -w dump.pcap配合 Wireshark 分析 TCP 重传、连接拒绝原因
  • 资源限制ulimit -n(文件描述符) / cgroups v1/v2高并发服务 "too many open files" 是经典坑

☸️Kubernetes 核心

  • 工作负载Deployment / StatefulSet / DaemonSet / Job / CronJobStatefulSet vs Deployment 适用场景,滚动更新策略配置
  • 网络体系Service(ClusterIP/NodePort/LB)/ Ingress / NetworkPolicykube-proxy iptables 模式 vs ipvs 模式流量转发原理
  • 配置管理ConfigMap / Secret(Opaque/TLS/docker-registry)/ env/volume 挂载Secret 不要 base64 明文存 Git,要用 Sealed Secrets 或 Vault
  • 存储PV / PVC / StorageClass 动态供给 / volumeModeCSI 驱动原理,生产用 Ceph RBD / NFS / 云盘
  • 调度进阶nodeSelector / 亲和性反亲和性 / 污点容忍 / PodDisruptionBudget确保关键服务在不同节点打散,不被驱逐
  • 故障排查CrashLoopBackOff / OOMKilled / ImagePullBackOff / Pendingkubectl describe pod / logs --previous,能说出每种状态的 5+ 原因

🚀CI/CD 流水线

  • Jenkins Pipeline声明式 Jenkinsfile / 共享库 / 多分支流水线能设计可复用的 shared library,支持多项目统一流水线
  • GitLab CI/CD.gitlab-ci.yml / stages / artifacts / cache / Runner 管理GitLab Runner 注册与配置,executor 选型(docker/k8s)
  • 完整链路设计代码提交→单测→镜像构建→安全扫描→推仓库→部署→冒烟测试每个阶段有质量门禁,失败自动回滚,Slack/钉钉通知
  • 发布策略滚动发布 / 蓝绿部署 / 金丝雀/灰度发布能用 Nginx/Ingress 权重实现 10% 灰度流量切分
  • 质量门禁SonarQube 代码质量 / 单测覆盖率 / 镜像漏洞扫描Trivy 扫镜像,Critical 级别漏洞必须修复才能过门禁

📊监控可观测性

  • Prometheus 体系Exporter 接入 / PromQL 查询 / 抓取配置 / 联邦集群rate() / increase() / histogram_quantile() 是高频 PromQL 函数
  • GrafanaDashboard 设计 / 模板变量 / 数据源 / 告警规则能从头设计业务监控大盘,不只会导入别人的 JSON
  • Alertmanager分级告警 / 路由树 / 静默 / 抑制 / 通知聚合避免告警风暴:group_wait + group_interval 配置
  • ELK 日志栈Filebeat 采集 → Kafka 缓冲 → Logstash 解析 → ES 存储Kibana 查询语法(KQL),Index 分片/副本规划
  • 日志规范结构化日志(JSON)/ 统一 traceId / 日志级别规范没有 traceId 的日志在微服务场景下几乎没法排查

🔧中间件高可用

  • MySQL 高可用MHA 自动主从切换 / MGR 多主 / ProxySQL 读写分离MHA 切换时间 < 30s,掌握 binlog 位点对齐和 GTID 切换
  • Redis 集群Sentinel 哨兵模式 / Redis Cluster 16384 槽分片Cluster 脑裂保护、热点 key 处理(本地缓存/拆分)
  • Kafka集群部署 / Topic 分区设计 / 消费组 / 监控(JMX)消息积压怎么处理,Leader 均衡,ISR 缩容告警
  • 负载均衡Keepalived + LVS / HAProxy / Nginx upstreamVIP 漂移原理,健康检查配置,会话保持
  • 消息队列对比Kafka vs RabbitMQ vs RocketMQ 适用场景广深大厂多用 Kafka,金融场景多用 RocketMQ

☁️公有云(广深刚需)

  • 腾讯云 / 阿里云至少深入掌握一家,CVM/ECS / VPC / 安全组 / CLB/SLB广深企业 90% 在用腾讯云或阿里云,不会等于硬伤
  • 托管 K8sTKE(腾讯)/ ACK(阿里),节点池管理、升级策略托管 K8s 和自建区别:Master 不用自己维护,但控制面受限
  • 对象存储COS / OSS:生命周期策略 / 跨区域复制 / CDN 加速日志归档、镜像存储、静态资源托管标准方案
  • 网络架构VPC 划分 / 私网互联(CCN/CEN)/ 弹性公网 IP多可用区容灾架构是设计题高频考点
  • 云数据库云 MySQL / Redis / Elasticsearch 托管服务使用托管服务 vs 自建:成本、运维复杂度权衡

🐍Python 开发能力

  • 运维工具开发批量操作脚本 / 数据处理 / 报表生成paramiko SSH 批量执行、pandas 处理 CSV 巡检报告
  • API 对接requests 调用 RESTful API / 云厂商 SDK对接钉钉/企微 Webhook 告警,调用云 API 管理资源
  • Web 框架基础Flask / FastAPI 写简单运维 API 服务给监控系统写回调 webhook、暴露自定义 metrics
  • Go 入门基本语法 / 能读懂 K8s 相关 Go 代码 / 改简单工具看懂 client-go 基础用法,为升高级打基础

🔐安全 & 配置管理

  • AnsiblePlaybook / Role / 变量优先级 / 自定义模块用 Role 组织代码,Ansible Vault 加密敏感配置
  • 堡垒机JumpServer / Teleport:操作审计 / 权限矩阵所有生产操作走堡垒机,事后可审计是合规要求
  • 备份容灾全量+增量备份策略 / 异地备份 / 恢复演练备份要定期验证可恢复性,很多公司备份从未恢复过
  • 证书管理cert-manager(K8s 内)/ ACME 协议 / 证书过期监控用 Prometheus 监控证书到期时间,提前 30 天告警

🗃️Helm & 容器生态

  • Helm Chart 开发编写 templates / values.yaml / _helpers.tpl / NOTES.txt会把公司内部应用打成可复用的 Helm Chart
  • 镜像优化多阶段构建(multi-stage)/ distroless / .dockerignoreJava 应用镜像从 1GB 压缩到 100MB 以内
  • Harbor 企业级RBAC 权限 / 镜像扫描 / 垃圾回收 / 复制策略生产 Harbor 磁盘管理、定期 GC、跨区域镜像同步
Jenkinsfile
// 中级标准配置:Jenkins Pipeline 构建→镜像→K8s 部署→失败自动回滚
pipeline {
    agent { label 'k8s-agent' }
    environment {
        REGISTRY = 'harbor.company.com'
        IMAGE     = "${REGISTRY}/app/${env.JOB_NAME}:${env.BUILD_NUMBER}"
    }
    stages {
        stage('单元测试') {
            steps { sh 'pytest tests/ --cov=app --cov-fail-under=70' } // 覆盖率低于70%直接失败
        }
        stage('镜像构建 & 扫描') {
            steps {
                sh 'docker build -t ${IMAGE} .'
                sh 'trivy image --exit-code 1 --severity CRITICAL ${IMAGE}' // CRITICAL 漏洞拦截
                sh 'docker push ${IMAGE}'
            }
        }
        stage('灰度部署 10%') {
            steps {
                sh 'helm upgrade --install app-canary ./chart \'
                    '--set image.tag=${BUILD_NUMBER} \'
                    '--set replicaCount=1 -n production'
                sh 'sleep 60 && kubectl rollout status deploy/app-canary -n production'
            }
        }
        stage('全量发布') {
            steps { sh 'helm upgrade app ./chart --set image.tag=${BUILD_NUMBER} -n production' }
        }
    }
    post {
        failure {
            sh 'helm rollback app -n production' // 失败自动回滚上一版
            dingTalk message: "❌ 发布失败:${env.JOB_NAME} #${env.BUILD_NUMBER}"
        }
        success { dingTalk message: "✅ 发布成功:${env.JOB_NAME} #${env.BUILD_NUMBER}" }
    }
}
典型 JD 示例(深圳南山 K8s 运维 DevOps · 18–25K)
  1. 负责 Kubernetes 集群生命周期管理(部署、升级、扩缩容、故障处理),生产集群 50+ 节点优先
  2. 熟练使用 Shell / Python 编写运维工具,有实际工具或平台开发经验加分
  3. 熟悉 Nginx、Redis、MySQL、Kafka、ES 等组件的集群部署、日常调优与应急处理
  4. 熟练使用 Prometheus + Grafana 建立监控体系,会写 PromQL 和配置多级告警
  5. 能搭建和维护 Jenkins / GitLab CI 完整流水线,支持灰度发布、自动回滚
  6. 有阿里云 / 腾讯云实操经验,了解 TKE/ACK、SLB、VPC、RDS 等核心产品

⚠ 面试侧重:为什么这么做?踩过什么坑?

  • K8s Pod 一直 CrashLoopBackOff,排查思路?能说出 8+ 个可能原因
  • Service ClusterIP / NodePort / LoadBalancer 流量转发链路,iptables 规则怎么看
  • Prometheus 数据量爆炸了怎么办?讲讲 Thanos 或 VictoriaMetrics 方案选型
  • Jenkins Pipeline 怎么实现灰度发布?5% 流量切分怎么做,观察哪些指标再放量
  • MySQL 主从延迟怎么定位?并行复制参数怎么调?半同步复制原理?
  • 线上 CPU 突然 100%,从收到告警到定位根因的完整操作过程是什么

📈 从中级升高级:需要突破的 3 个门槛

1
Go 语言必须过关:能独立开发工具,能看懂 K8s 源码,能写简单 Operator。这是高级岗核心门槛
2
大规模生产经验:百节点+ K8s 集群、百亿+ 流量,有真实故障排查和优化案例,能量化说出收益
3
从执行走向设计:不只是维护系统,要能设计系统。SLO / 容量规划 / 架构评审都要能主导

高级运维工程师 / SRE / DevOps 架构师

薪资:25–50K / 月 经验:3–5 年+(含大规模生产必须) 广深岗位密度:★★★☆☆(需求精准,竞争激烈) 核心门槛:Go + 源码 + 架构设计经验

☸️K8s 深度 & 源码

  • 核心组件源码apiserver(认证/准入/存储链)/ scheduler(Predicate+Priority)/ kubelet(PLEG/cAdvisor)面试问"etcd watch 机制怎么触发资源变更",要能画出完整链路
  • CNI 深度Calico BGP 模式 / Cilium eBPF 数据面 / Flannel VXLAN 原理能解释 Pod 跨节点通信的完整数据包路径,包括 iptables/eBPF 规则
  • CSI & CRI存储接口(CSI Driver 开发)/ 运行时接口(containerd/CRI-O)容器 rootfs / overlayfs 文件系统原理,containerd snapshotter
  • 大规模调优500+ 节点 etcd 压测调优 / apiserver 限流 / 控制面 HAetcd compaction/defrag 策略,apiserver --max-requests-inflight 调优
  • 多集群联邦Karmada(推荐)/ Clusternet / KubeFed v2 选型对比Karmada 传播策略(PropagationPolicy)+ 差异化配置(OverridePolicy)
  • Operator 开发kubebuilder / controller-runtime / client-go informer 机制Reconcile loop 幂等设计、工作队列限速、finalizer 防止资源泄漏

🕸️服务网格 & GitOps

  • Istio 深度VirtualService / DestinationRule / 流量镜像 / 熔断 / mTLSEnvoy xDS 协议(LDS/RDS/CDS/EDS),理解控制面 Pilot 下发配置原理
  • 流量治理能力按 Header/权重灰度 / 故障注入(延迟/错误码)/ 超时重试能在 Istio 上实现精细化流量管控,支撑 AB 测试和灰度发布
  • ArgoCD GitOpsApplication / AppProject / RBAC / Sync Policy / HooksGit 即事实来源,自动同步+人工审批结合,支持多环境管理
  • Tekton 流水线Pipeline / Task / Trigger / EventListener / ClusterTask云原生 CI/CD,比 Jenkins 更 K8s-native,大厂逐步迁移中
  • Linkerd轻量服务网格 / 自动 mTLS / 延迟感知负载均衡比 Istio 轻量,适合不需要复杂流量治理的中小规模场景

🔭可观测性全栈

  • Metrics 大规模Thanos(全局查询+长存储)/ VictoriaMetrics(高性能)Thanos Ruler 全局告警,VictoriaMetrics 比原生 Prometheus 内存省 7 倍
  • 分布式链路追踪Jaeger / SkyWalking / Zipkin / OpenTelemetry SDKTrace → Span 模型,采样策略(头部/尾部采样),性能影响评估
  • OpenTelemetry统一观测标准:Metrics + Logs + Traces 三位一体OTel Collector pipeline 配置,替换多套 agent 为单一采集方案
  • eBPF 可观测Pixie(无侵入 K8s 观测)/ Cilium Tetragon(安全可观测性)eBPF 无需修改应用代码即可获取 L7 流量数据,是下一代观测技术
  • 日志平台建设Loki + Promtail / 日志平台架构设计 / 冷热分层存储Loki 比 ES 成本低 10 倍,适合日志量大但查询不复杂的场景

⚙️Go 语言 & 开发能力

  • Go 语言深度goroutine / channel / context / sync 包 / 内存模型会写高并发安全的代码,理解 GC 原理(三色标记),能用 pprof 定位内存泄漏
  • K8s 生态开发client-go informer/lister/workqueue / kubebuilder scaffoldInformer 缓存机制避免直接打 apiserver,WorkQueue 限速防止雪崩
  • Operator 实战CRD 设计(Validation Webhook)/ 控制器幂等逻辑 / Status 子资源生产 Operator 必须处理 finalizer、owner reference、generation 版本控制
  • 运维平台开发CMDB 资产管理 / 工单系统 / 发布平台 / 容量管理后端 Go + 前端 React/Vue,对接 K8s API 实现可视化操作
  • 前端基础React / Vue 能写简单页面 / Ant Design / Element Plus不需要精通,能改现有页面、对接接口、不报错就行

🏗️IaC & 多云架构

  • TerraformResource / Data / Module / Remote State / Workspace用 Terraform 管理腾讯云 / 阿里云资源,支持灾备环境一键复制
  • Pulumi用 Python/Go/TypeScript 代码定义基础设施比 Terraform HCL 更灵活,适合有编程能力的团队
  • CrossplaneK8s 风格声明式云资源管理,XRD/Composition让开发自助申请云资源(数据库、缓存),运维只需维护 Composition 模板
  • 多云 & 混合云多云成本对比 / 流量调度 / 统一身份认证FinOps 理念:按需使用,Spot 实例降本,资源利用率持续监控
  • FinOps 成本优化资源使用率分析 / Spot/竞价实例 / 预留实例采购生产中把 K8s 利用率从 15% 提升到 50%+ 是常见降本项目

🧪混沌工程 & SRE

  • ChaosMeshK8s 原生混沌平台:Pod 故障 / 网络延迟 / 磁盘故障 / 时间偏移Workflow 编排混沌场景,通过 Grafana 面板观察系统行为
  • ChaosBlade阿里开源:支持 CPU / 内存 / 磁盘 / 网络 / JVM 故障注入Java 应用 JVM 故障注入(方法延迟/异常)是电商大促压测必备
  • SLO / SLA 管理错误预算 / 可用性建模 / Burn Rate 告警Burn Rate 告警比简单可用率告警更及时,能提前 1 小时发现趋势
  • 容量规划压测(k6 / wrk / JMeter)/ 性能基线 / 扩缩容策略每季度压测验证容量,大促前 Runbook 提前演练
  • 故障复盘5-Why 根因分析 / 时间线还原 / 改进 Action 追踪好的 RCA 不只找凶手,更要优化系统让同类故障不再发生

🔒安全合规

  • K8s 安全加固CIS Benchmark / PSA(Pod Security Admission)/ OPA Gatekeeper生产集群定期跑 kube-bench 评分,不合规项必须整改
  • 镜像安全Trivy / Clair / Anchore:集成到 CI 门禁 + 运行时扫描不只扫 CI 阶段,运行中的镜像也要周期扫描(可能新增 CVE)
  • 密钥 & 敏感信息HashiCorp Vault / Sealed Secrets / External Secrets OperatorK8s Secret 只是 base64,生产环境必须加密存储,Vault 动态生成凭证
  • 合规审计等保 2.0(三级)/ SOC 2 Type II / ISO 27001 配合配合安全团队提供日志留存(6 个月+)、操作审计、访问控制证据
  • 网络安全零信任网络(mTLS + SPIFFE/SPIRE)/ 微隔离服务间通信全加密,最小权限原则,NetworkPolicy 白名单模式

🗄️数据库 & 大数据运维

  • 分布式数据库TiDB(HTAP)/ OceanBase(金融级)/ CockroachDBTiDB 适合从 MySQL 平迁的大数据量场景,需要运维 TiKV + PD 组件
  • 分库分表ShardingSphere-Proxy / MyCat:分片策略 + 路由规则单表 5000 万行以上考虑分片,分片键选择影响查询效率
  • 大数据运维Hadoop YARN / Spark 集群 / Flink on K8s / Hive Metastore数仓团队需要运维支撑,K8s 化是大数据基础设施趋势
  • 数据库高可用架构MGR + ProxySQL / Orchestrator 自动 FailoverOrchestrator 可视化 MySQL 拓扑,自动 Failover < 10s

🎯架构 & 软技能

  • 系统架构设计百万 QPS 架构 / 容量规划 / 高可用 / 异地多活面试:设计支撑 1000+ 节点 K8s 集群的基础设施方案,能画出架构图
  • 技术方案评审主导技术选型 / RFC 文档撰写 / 架构决策记录(ADR)能写有说服力的方案文档,推动技术债治理和架构演进
  • 团队协作指导初中级工程师 / On-call 文化 / 故障复盘 / 知识沉淀技术布道:写内部分享、Runbook、架构决策文档
  • 跨团队推动与研发 / 安全 / 产品协作,推动可观测性 / DevSecOps 落地高级运维的核心价值:推动工程文化改进,不只是维护系统
Go
// 高级岗核心能力:Go 开发 K8s Operator(controller-runtime 框架)
package main

import (
    "context"
    "fmt"
    appsv1 "k8s.io/api/apps/v1"
    corev1 "k8s.io/api/core/v1"
    "sigs.k8s.io/controller-runtime/pkg/client"
    "sigs.k8s.io/controller-runtime/pkg/reconcile"
)

// Reconcile 是控制器核心:持续对比「期望状态」与「实际状态」,做出调整
func (r *AppReconciler) Reconcile(ctx context.Context, req reconcile.Request) (reconcile.Result, error) {
    // 1. 从缓存读取自定义资源(走 Informer 缓存,不直接打 apiserver)
    app := &v1.MyApp{}
    if err := r.Get(ctx, req.NamespacedName, app); err != nil {
        return reconcile.Result{}, client.IgnoreNotFound(err) // 资源已删除,忽略
    }

    // 2. 防止 finalizer 导致删除卡住(生产必须处理)
    if !app.DeletionTimestamp.IsZero() {
        return r.handleDeletion(ctx, app)
    }

    // 3. 对比期望 vs 实际,差异调整(幂等!重复调谐不产生副作用)
    deploy := &appsv1.Deployment{}
    if err := r.Get(ctx, req.NamespacedName, deploy); err != nil {
        return reconcile.Result{}, r.createDeployment(ctx, app) // 不存在则创建
    }

    // 4. 更新 Status 子资源(记录观察状态,供 kubectl get 查看)
    app.Status.AvailableReplicas = deploy.Status.AvailableReplicas
    _ = r.Status().Update(ctx, app)

    fmt.Printf("✅ Reconciled: %s/%s\n", app.Namespace, app.Name)
    return reconcile.Result{}, nil
}
典型 JD 示例(深圳 K8s 架构师 / 高级 SRE · 30–50K · 某大厂)
  1. 负责公司容器云平台(1000+ 节点 K8s)的架构设计、容量规划与持续优化
  2. 深入理解 K8s 核心组件工作原理,有 Operator / CRD 独立开发经验(代码可演示)
  3. 熟练使用 Go 语言,能独立开发运维平台、工具链、K8s 扩展组件
  4. 主导过大规模生产环境故障排查,能清晰描述根因、临时措施和永久改进
  5. 熟悉 Istio / Linkerd 服务网格,有流量治理生产落地经验
  6. 具备 SRE 意识:SLO 管理、错误预算、混沌工程、容量规划经验优先

⚠ 面试侧重:架构方案 + 源码理解 + 量化业务收益

  • 设计支撑 1000+ 节点的 K8s 集群:etcd / apiserver 高可用方案,etcd 如何扩展
  • 讲讲你写过的 Operator:CRD 设计上踩过哪些坑?Reconcile 幂等如何保证
  • K8s Pod 调度全流程:scheduler 源码里 Predicate(过滤)和 Score(打分)如何实现
  • 你负责过最大的故障是什么?根因 + 临时处置 + 根治方案 + 后续预防机制,量化说
  • Istio 流量管理底层:Envoy xDS 协议(LDS/RDS/CDS/EDS),控制面如何下发配置
  • 多集群方案选型:Karmada vs Clusternet vs KubeFed v2,各自优缺点和适用场景

📈 维持高级竞争力:持续要做的事

1
关注 CNCF Landscape:每年都有新技术(eBPF、Wasm、AI Infra),要有判断力而不是盲目追新
2
量化你的价值:故障减少多少?成本节省多少?效率提升多少?高薪谈判的底气来自可量化的收益
3
输出影响力:内部技术分享 / 博客 / GitHub / CNCF 社区贡献,让业界知道你的存在

三档技术栈横向完整对比

技术维度 🔵 初级 · 8–15K 🟡 中级 · 15–25K 🟣 高级 · 25–50K
Linux 基础命令服务管理日志查看 性能调优四象限排障strace/tcpdump eBPF 内核追踪火焰图内核参数深度
脚本/编程 Shell 三剑客Python 入门 Python 工具开发Go 入门/读懂Flask/FastAPI Go 熟练开发Operator 开发源码二次开发
容器 & K8s Docker 基础Dockerfiledocker-compose K8s 全套核心资源Helm Chart 开发Harbor 企业级 K8s 源码级CNI/CSI/CRI多集群联邦
CI/CD 了解 JenkinsGit 基础操作 Jenkins PipelineGitLab CI灰度/蓝绿发布 ArgoCD GitOpsTekton 云原生流水线平台开发
监控 & 告警 Zabbix 基础看监控图 Prometheus 体系PromQL 编写Alertmanager 多级 Thanos/VictoriaMetricsOpenTelemetryeBPF 可观测
日志 grep / tail基础排障 ELK 完整链路结构化日志规范Kafka 缓冲 Loki 大规模链路追踪接入日志平台建设
配置管理 手工部署Ansible 了解 Ansible Playbook/RoleVault 加密配置自定义模块 Terraform 多云Pulumi / CrossplaneFinOps 成本优化
数据库 MySQL 主从Redis 基础备份恢复 MHA/MGR 高可用Redis Sentinel/ClusterKafka 集群运维 TiDB/OceanBase分库分表大数据栈运维
网络 TCP/IP 基础iptables 规则 LVS/HAProxy/Keepalived云 VPC 架构负载均衡深度 Calico BGP 模式Cilium eBPF零信任网络
公有云 了解基础产品 腾讯云/阿里云熟练TKE/ACK 托管 K8sCOS/OSS/CDN 多云架构设计FinOps 降本混合云打通
安全 堡垒机使用基础权限管理 cert-manager 证书镜像漏洞扫描Trivy CI 集成 Vault 密钥管理OPA 策略引擎等保/SOC2 合规
软技能 执行任务按 SOP 处理 独立设计方案跨团队协作故障复盘 架构决策 & 评审带团队 & 布道SLO 管理体系