Skip to content

赛博工地巡检手册:全维度监控指令集(自用)

🌱 创建: 2026/04/12 ⏱️ 更新: 2026/05/22

This content is not available in your language yet.

🛠️ 指挥部:节点与高可用 (Nodes & HA)

Section titled “🛠️ 指挥部:节点与高可用 (Nodes & HA)”

这部分命令用于确认 3 台 Master 的身体状况以及 VIP (10.0.10.2) 到底在谁手里。

查看节点版本、内网 IP、操作系统以及内核版本。

Terminal window
kubectl get nodes -o wide
Terminal window
kubectl get lease plndr-cp-lock -n kube-system

HOLDER 这一列,写着谁的名字,10.0.10.2 这个 VIP 就在谁的网卡上。

一眼看穿哪台机器在偷懒,哪台在拼命(需 Metrics Server 正常运行)。

Terminal window
kubectl top nodes

⚡ 神经系统:Cilium 网络探测 (Networking)

Section titled “⚡ 神经系统:Cilium 网络探测 (Networking)”

Cilium 的 eBPF 魔法是看不见的,必须通过特定的“探测仪”来观察。

查看 Cilium Agent 的健康状态、eBPF 模式是否开启、代理是否正常。

Terminal window
kubectl -n kube-system exec ds/cilium -- cilium-dbg status

5. 查看二层广播 (L2 Announcement) 租约

Section titled “5. 查看二层广播 (L2 Announcement) 租约”

确认哪个节点正在代表哪个 LoadBalancer IP 在外“大喊大叫”。

Terminal window
kubectl get leases -n kube-system | grep l2announce

查看 Cilium 底层到底把外部 IP 映射到了哪些内部 Pod IP。

Terminal window
kubectl -n kube-system exec ds/cilium -- cilium-dbg bpf lb list

查看你的 10.0.10.50 - 200 段还剩下多少可用 IP,有没有冲突。

Terminal window
kubectl get ippools

📦 物流部:服务与负载均衡 (Services & LoadBalancer)

Section titled “📦 物流部:服务与负载均衡 (Services & LoadBalancer)”

这里查看你的业务是如何对外的。

查看所有命名空间下的 Service、对应的 ClusterIP、EXTERNAL-IP 以及端口映射。

Terminal window
kubectl get svc -A

9. 筛选所有的对外业务 (LoadBalancer)

Section titled “9. 筛选所有的对外业务 (LoadBalancer)”

只看那些拿到了 10.0.10.x 段 IP 的“明星业务”。

Terminal window
kubectl get svc -A | grep LoadBalancer

确认 Service 是否真的找到了背后的 Pod(如果这里是 <none>,说明 Selector 写错了)。

Terminal window
kubectl get endpoints -n kube-system

🛡️ 前线战况:负载与容器 (Pods & Workloads)

Section titled “🛡️ 前线战况:负载与容器 (Pods & Workloads)”

查看容器的生死存亡和调度位置。

查看所有 Pod 的运行状态、重启次数、IP 以及所在的宿主机节点。

Terminal window
kubectl get pods -A -o wide

找出谁是集群里的“内存杀手”。

Terminal window
kubectl top pods -A

13. 查看集群“灵异事件” (Events)

Section titled “13. 查看集群“灵异事件” (Events)”

按时间倒序查看集群最近发生了什么(如节点宕机、Pod 驱逐、证书失败)。

Terminal window
kubectl get events -A --sort-by='.lastTimestamp'

🩺 诊断工具:日志与排错 (Debug)

Section titled “🩺 诊断工具:日志与排错 (Debug)”

10.0.10.50 打不开时,用这些命令救命。

比如你想看 Headlamp 为什么报 500。

Terminal window
kubectl logs -f -l app.kubernetes.io/name=headlamp -n kube-system

如果发现 Cilium 逻辑乱了,这行命令会让所有节点的保安重新交接班。

Terminal window
kubectl rollout restart ds/cilium -n kube-system

直接在集群内部模拟访问,测试 ClusterIP 是否畅通。

Terminal window
kubectl run -it --rm debug-pod --image=curlimages/curl -- sh

Last updated: