k8s叢集故障解決思路與方法

阿新 • • 發佈：2018-11-15

熟悉架構

HA的架構

熟悉架構
- HA的架構
- 單master的叢集結構
- 瞭解各元件的作用與基本命令
  - etcd/kube-api/kube-controller/kube-scheduler/kube-proxy/kube-dns/kubelet/calico
  - 當叢集出現問題，我們會用一些命令或dashboard觀察和獲取到錯誤資訊，有時dashboard也無法使用
  - 參考：https://blog.csdn.net/huwh_/article/details/71308171
  - https://www.kubernetes.org.cn/kubernetes%E8%AE%BE%E8%AE%A1%E6%9E%B6%E6%9E%84
常用命令：
1. 基礎網路：
  - iptables/nslookup/curl/tracerroute/route/ping/tcpdump/ss -nltp/ip a/等
- etcd叢集狀態：
  - etcdctl --cert-file /etc/etcd/ssl/etcd.pem --key-file /etc/etcd/ssl/etcd-key.pem --ca-file /etc/etcd/ssl/ca.pem --endpoints https://$CP1_IP:2379
    
    cluster-health
- calico網路狀態：
  - calicoctl node status
- k8s服務與PODS狀態：
  - kubectl get pods --all-namespaces -o wide
  - kubectl get svc --all-namespaces -o wide
  - kubectl describe pods <PODNAME> -n <NAMESPACE>
- 容器狀態與日誌：
  - docker ps -a |grep <KEY>
  - docker logs <ContainerID>
排查思路與順序
- 基礎網路-->etcd叢集->api->calico網路->cubeDNS->基礎元件->其它SVC與PODS
  - 基礎網路的故障，會導致etcd叢集故障，etcd又會導致kube-apiserver故障，apiserver故障導致整個叢集無法訪問；
  - 故障現象五花八門，同一種現象解決的辦法不一定相同，不同的版本解決方法不一定相同；
  - 在保證叢集基礎元件執行正常的前提下，容器的日誌往往比較準確的反應問題的實質
  - 經驗+baidu/google/bing
故障現象
- 容器不斷重啟
- dashboard無法開啟
- 命令無法執行
- 網路不通
- 域名無法解析
- 。。。
常見故障例
- 安裝時下載鏡相類問題
  - 問題: 下不到calico鏡相，可以用阿里雲轉一下，master上4個全要下，node上只要node/cni
    - # 阿里雲鏡相服務https://cr.console.aliyun.com/repository/
    - docker pull registry.cn-zhangjiakou.aliyuncs.com/yanghaitao/myhub:3.2.3-1
    - docker pull registry.cn-zhangjiakou.aliyuncs.com/yanghaitao/myhub:3.2.3-2
    - docker pull registry.cn-zhangjiakou.aliyuncs.com/yanghaitao/myhub:3.2.3-3
    - docker pull registry.cn-zhangjiakou.aliyuncs.com/yanghaitao/myhub:3.2.3-4
    - docker tag registry.cn-zhangjiakou.aliyuncs.com/yanghaitao/myhub:3.2.3-1 quay.io/calico/kube-controllers:v3.2.3
    - docker tag registry.cn-zhangjiakou.aliyuncs.com/yanghaitao/myhub:3.2.3-2 quay.io/calico/cni:v3.2.3
    - docker tag registry.cn-zhangjiakou.aliyuncs.com/yanghaitao/myhub:3.2.3-3 quay.io/calico/node:v3.2.3
    - docker tag registry.cn-zhangjiakou.aliyuncs.com/yanghaitao/myhub:3.2.3-4 quay.io/coreos/etcd:v3.3.9
- 許可權類問題
  - kubectl 使用$HOME/.kube/config（即/etc/kubernetes/admin.conf）的配置來訪問叢集
- 網路類問題
  - 問題一：calico 網路問題：
    - 現象：像單master安裝時一樣apply後，發現calico node一直不正常，重啟，coredns也是；
    - 查詢原因：查calico-etcd有三個，member list只有一個，官網只有單master的介紹，etcd.yaml是個daemonset, 會在每個master上啟一個etcd pod, 可導致calico etcd的服務不正常, 連鎖反應是calico node/coredns/dashboard等都不正常；
    - 解決方法一：
      - 把calico etcd的daemonset 改為deployment, replicas 設為1
    - 方法二：
      - 把etcd的指向到kubernetes叢集的etcd上去，configmap裡配置好ca驗證
      - 參考：http://blog.51cto.com/newfly/2085836
    - 方法三：
      - 用打標籤的方法讓calico etcd只執行在指定的master上，臨時解決方法，沒法高可用；
        
        改etcd.yaml, nodeselector, =master1
        
        kubectl label nodes master1 node-role.kubernetes.io/master=master1--overwrite
        
        reboot所有結點或刪除重啟calico相關pods
  - 問題二：kubeadm init 後，無coredns/kube-proxy的pods出現：
    - 調通外部網路
- 其它問題：
  - 問題三：k8s叢集kubeadm的官方介紹方法有兩種：
    - 方法一是使用k8s自身的etcd，安裝起來速度慢，常出現莫名的故障；
    - 方法二即自建外部etcd的方法，速度快且穩定，install.sh採用此方法；
  - 問題四：重新安裝
    - 先執行 sh install.sh reset
  - 問題五：etcd備份
    - etcd叢集資料：/var/lib/etcd
    - calico etcd資料： /var/etcd

參考：

往期連結：

進入公眾號 -> 輸入help或index

Linux命令速查，如lsof

k8s叢集故障解決思路與方法

目錄熟悉架構 HA的架構常用命令：排查思路與順序故障現象常見故障例參考：熟悉架構 HA的架構單master的叢集結構

網路爬蟲以及自動化測試中圖形驗證碼識別解決思路以及方法

前言做自動化測試的朋友都知道圖形驗證碼在整個自動化執行過程中，很可能是阻礙推進的問題，可以採用萬能驗證碼（開發哥哥會流出一個供自動化測試用的），如果不通過開發預留，有以下解決方案。解決思路 1.python3自帶光學字元識別模組tesserocr與pytesseract，可以識別簡單驗證碼； 2.稍

文字分類 - 樣本不平衡的解決思路與交叉驗證CV的有效性

現實情況中，很多機器學習訓練集會遇到樣本不均衡的情況，應對的方案也有很多種。筆者把看到的一些內容進行簡單羅列，此處還想分享的是交叉驗證對不平衡資料訓練極為重要。文章目錄 1 樣本不平衡的解決思路 1.2 將不平衡樣本當作離群點

資料相似度處理功能實現思路與方法

最近接到一個需求，需求直接來源於業務的一句話，“找出這堆商品資訊裡面相似的商品，根據名稱判斷”。需求看似簡單，實則思考起來用技術實現是需要花點心思的。對於這樣的需求，首先要有一個思路和思考的過程：1、業務具體想要的是什麼？ -- 名稱相似度超過一定比例的兩個商品可以算成一個或

【學習總結】ctf隱寫初階解題思路與方法

作為ctf中相對較為簡單的題目，隱寫題更適合初學者上手和提高初學者的興趣。本人也對隱寫術很感興趣，於是嘗試著對自己目前所學的隱寫解題思路和工具的使用做一個總結。由於水平有限，總結可能會有錯誤的地方，希望大佬們不吝賜教，謝謝！一.JPEG圖片 1.檔案的合併與分離

Android 經典筆記之四：事件衝突解決思路與方案

事件衝突解決思路與方案目錄介紹 1.事件機制簡單介紹 1.1 觸控事件 1.2 分發事件 1.3 攔截事件 2.解決滑動衝突的思路及方法 2.1 第一種情況，滑動方向不同 2.2 第二種情況，滑動方法相同 2.3 第三種情況，以上兩種情況巢狀 3.案例解決方法

針對高併發系統的解決思路與方案

總體上：開濤大神在部落格中說過：在開發高併發系統時有三把利器用來保護系統：快取、降級和限流。 1.擴容根據業務系統的型別，考慮不同的針對在資料庫方面的擴容： 2.快取（特別重要）快取設定的地方手段主要是Redis、CDN、瀏覽器等，其次

leetCode 7. Reverse Integer (數字反轉) 解題思路與方法

問題： Reverse Integer Reverse digits of an integer. Example1: x = 123, return 321Example2: x = -123, return -321 本題需要注意的地方在於數字反轉後有可能溢位，所

python ImportError: No module named 的錯誤解決思路和方法

1 首先要確定是否安裝了該模組在 python 提示符下輸入 import MySQLdb 看是否報錯，如果保錯，表面沒有該模組，但是，有的時候往往出現明明已經安裝該模組，並提示成功了，但是還是找不到該模組 2 上面那種情況可能就是 PYTHO

億級流量架構之資源隔離思路與方法

## 為什麼要資源隔離常見的資源,例如磁碟、網路、CPU等等,都會存在競爭的問題,在構建分散式架構時,可以將原本連線在一起的元件、模組、資源拆分開來,以便達到最大的利用效率或效能。資源隔離之後,當某一部分元件出現故障時,可以隔離故障,方便定位的同時,阻止傳播,避免出現滾雪球以及雪崩效應。常見的隔離方式

億級流量架構之服務限流思路與方法

## 為什麼要限流日常生活中,有哪些需要限流的地方? 像我旁邊有一個國家AAAA景區,平時可能根本沒什麼人前往,但是一到五一或者春節就人滿為患,這時候景區管理人員就會實行一系列的政策來限制進入人流量, 為什麼要限流呢?假如景區能容納一萬人,現在進去了三萬人,勢必摩肩接踵,整不好還會有事故發生,這樣的結果

億級流量架構之服務降級思路與方法

## 什麼是服務降級如果看過我前面對[服務限流](https://www.cnblogs.com/Courage129/p/14423707.html)的分析,理解服務降級就很容易了,對於一個景區,平時隨便進出,但是一到春節或者十一國慶這種情況客流量激增,那麼景區會限制同時進去的人數,這叫限流,那麼什麼是

DB2 sql報錯後查證原因與解決問題的方法

sta form con ica before lac tail reference ima 1.對於執行中的報錯，可以在db2命令行下運行命令： db2=>? SQLxxx 查看對應的報錯原因及解決方法。 2.錯誤SQL0206N SQLSTATE=42703

NFS服務的簡介及常見故障解決方法

NFS文件系統介紹 NFS配置詳解 NFS常見故障及解決方法 NFS文件系統詳解 NFS實現自動掛載 NFS服務的簡介及常見故障解決方法1、NFS基本介紹（1）NFS簡介 NFS 是Network File System的縮寫，即網絡文件系統。一種使用於分散式文件系統的

python2．和ｐｙｔｈｏｎ３．ｘ-matplotlib中文顯示為方塊-中文不顯示-故障原理研究與解決

matplot的字型問題，有以下3種方式一種是從pylab中進行全域性管理，可以管理任意實驗相關的字型，可以是和matplot無關的實驗的字型問題的管理一種是matplot的配置檔案，進行全域性管理一種是.py檔案中臨時加入配置語句網上具體的解決方案很多，但是我們會發現拿來用

機器學習之路--機器學習演算法一覽，應用建議與解決思路

《資料探勘與資料化運營實戰：思路、方法、技巧與應用》第一章什麼是資料化運營

《資料探勘與資料化運營實戰：思路、方法、技巧與應用》電子書地址：http://www.chforce.com/books/datamining-om-by-data/index.html 資料化運營實施的前提條件包括企業級海量資料儲存的實現、精細化運營的需求（與傳統的粗放型運營相對比）、資料分析

智慧運維（AIOps）中幾處問題的解決方案與思路

上一篇文章中我們介紹了智慧運維的定義和發展現狀，但是智慧運維需要解決的問題還有很多：海量資料儲存、分析、處理，多維度，多資料來源，資訊過載，複雜業務模型下的故障定位。本文針對每一類問題給出了經過實踐證明的解決方案和思路，同時說明為什麼要這麼做，以及在工程和演算法上會遇到的問題。

centos6,7常見系統故障解決方法

利用 mar lin dbd ges 無法無法加載 col 磁盤讀寫本篇文章筆者整理了一些常見的系統故障，以及誤操作而造成的故障以及解決方案。一，centos 7.4上 vmlinuz-3.10.0-693.el7.x86_64 內核文件損壞。 1，故障狀態如下（

angularJS 條件查詢品優購條件查詢品牌（條件查詢和列表展示公用方法解決思路及 post請求混合引數提交方式）

Brand.html <!DOCTYPE html> <html> <head> <meta charset="utf-8"> <meta http-equiv="X-UA-Compatible" content="IE=edge"

k8s叢集故障解決思路與方法

熟悉架構

HA的架構

常用命令：

排查思路與順序

故障現象

常見故障例

參考：

相關推薦