赛博工地巡检手册:全维度监控指令集(自用)
🛠️ 指挥部:节点与高可用 (Nodes & HA)
Section titled “🛠️ 指挥部:节点与高可用 (Nodes & HA)”这部分命令用于确认 3 台 Master 的身体状况以及 VIP (10.0.10.2) 到底在谁手里。
1. 节点全息扫描
Section titled “1. 节点全息扫描”查看节点版本、内网 IP、操作系统以及内核版本。
kubectl get nodes -o wide2. 寻找“带头大哥” (kube-vip)
Section titled “2. 寻找“带头大哥” (kube-vip)”kubectl get lease plndr-cp-lock -n kube-system看 HOLDER 这一列,写着谁的名字,10.0.10.2 这个 VIP 就在谁的网卡上。
3. 查看 CPU/内存 资源水位
Section titled “3. 查看 CPU/内存 资源水位”一眼看穿哪台机器在偷懒,哪台在拼命(需 Metrics Server 正常运行)。
kubectl top nodes⚡ 神经系统:Cilium 网络探测 (Networking)
Section titled “⚡ 神经系统:Cilium 网络探测 (Networking)”Cilium 的 eBPF 魔法是看不见的,必须通过特定的“探测仪”来观察。
4. Cilium 全体健康自检
Section titled “4. Cilium 全体健康自检”查看 Cilium Agent 的健康状态、eBPF 模式是否开启、代理是否正常。
kubectl -n kube-system exec ds/cilium -- cilium-dbg status5. 查看二层广播 (L2 Announcement) 租约
Section titled “5. 查看二层广播 (L2 Announcement) 租约”确认哪个节点正在代表哪个 LoadBalancer IP 在外“大喊大叫”。
kubectl get leases -n kube-system | grep l2announce6. 查看 eBPF 内部转发路径
Section titled “6. 查看 eBPF 内部转发路径”查看 Cilium 底层到底把外部 IP 映射到了哪些内部 Pod IP。
kubectl -n kube-system exec ds/cilium -- cilium-dbg bpf lb list7. 查看支票簿剩余额度 (IP 池)
Section titled “7. 查看支票簿剩余额度 (IP 池)”查看你的 10.0.10.50 - 200 段还剩下多少可用 IP,有没有冲突。
kubectl get ippools📦 物流部:服务与负载均衡 (Services & LoadBalancer)
Section titled “📦 物流部:服务与负载均衡 (Services & LoadBalancer)”这里查看你的业务是如何对外的。
8. 查看全集群业务大表
Section titled “8. 查看全集群业务大表”查看所有命名空间下的 Service、对应的 ClusterIP、EXTERNAL-IP 以及端口映射。
kubectl get svc -A9. 筛选所有的对外业务 (LoadBalancer)
Section titled “9. 筛选所有的对外业务 (LoadBalancer)”只看那些拿到了 10.0.10.x 段 IP 的“明星业务”。
kubectl get svc -A | grep LoadBalancer10. 查看 Endpoint (接线员手册)
Section titled “10. 查看 Endpoint (接线员手册)”确认 Service 是否真的找到了背后的 Pod(如果这里是 <none>,说明 Selector 写错了)。
kubectl get endpoints -n kube-system🛡️ 前线战况:负载与容器 (Pods & Workloads)
Section titled “🛡️ 前线战况:负载与容器 (Pods & Workloads)”查看容器的生死存亡和调度位置。
11. 跨命名空间 Pod 扫描
Section titled “11. 跨命名空间 Pod 扫描”查看所有 Pod 的运行状态、重启次数、IP 以及所在的宿主机节点。
kubectl get pods -A -o wide12. 查看 Pod 的实时资源消耗
Section titled “12. 查看 Pod 的实时资源消耗”找出谁是集群里的“内存杀手”。
kubectl top pods -A13. 查看集群“灵异事件” (Events)
Section titled “13. 查看集群“灵异事件” (Events)”按时间倒序查看集群最近发生了什么(如节点宕机、Pod 驱逐、证书失败)。
kubectl get events -A --sort-by='.lastTimestamp'🩺 诊断工具:日志与排错 (Debug)
Section titled “🩺 诊断工具:日志与排错 (Debug)”当 10.0.10.50 打不开时,用这些命令救命。
14. 实时追踪某个服务的日志
Section titled “14. 实时追踪某个服务的日志”比如你想看 Headlamp 为什么报 500。
kubectl logs -f -l app.kubernetes.io/name=headlamp -n kube-system15. 强行重整网络环境
Section titled “15. 强行重整网络环境”如果发现 Cilium 逻辑乱了,这行命令会让所有节点的保安重新交接班。
kubectl rollout restart ds/cilium -n kube-system16. 进入“侦察兵” Pod 内部
Section titled “16. 进入“侦察兵” Pod 内部”直接在集群内部模拟访问,测试 ClusterIP 是否畅通。
kubectl run -it --rm debug-pod --image=curlimages/curl -- sh