Kubernetes Master節點災備恢復操作指南---升級版

阿新 • • 發佈：2018-11-19

ado gin store points true meta cli 3rd --

本文檔簡述了Kubernetes主節點災備恢復的相關步驟，供在發生k8s master崩潰時操作。

就算是在k8s裏部署了etcd群集, 主節點控制組件的高可用節點，災備恢復也是必須要實現的操作，才能形成完備的企業級服務方案。

K8s集群在master節點發生故障時，並不會影響已有的pod運行和服務開放，所以對服務是沒有影響的。故而我們可以在發生故障之後，挑選合適的時間窗口進行維護和恢復，可以對外部客戶造成最低的影響。

嚴格來講，通過kubeadm安裝的k8s主節點包括兩大類的災備恢復，etcd數據存儲恢復和主節點控制組件恢復(包括但不限於kube-apiserver，kube-controller-manager，kube-scheduler，flannel，coreDns，dashboard)。

所以本文檔也會相應的分成兩個章節來進行描述。

之前的文檔是全手工操作，而此次升級版，參考了國外比較正規的作法，形成了每天自動備份的機制。主要參考URL：

https://labs.consol.de/kubernetes/2018/05/25/kubeadm-backup.html

一，Etcd數據備份及恢復

etcd的數據默認會存放在我們的命令工作目錄中，我們發現數據所在的目錄，會被分為兩個文件夾中：

snap: 存放快照數據,etcd防止WAL文件過多而設置的快照，存儲etcd數據狀態。
wal: 存放預寫式日誌,最大的作用是記錄了整個數據變化的全部歷程。在etcd中，所有數據的修改在提交前，都要先寫入到WAL中。

A,單節點etcd數據備份

此方案備份etcd的數據時，為了部署方便和兼容，使用了k8s安裝時本身的images作為運行容器(k8s.gcr.io/etcd-amd64:3.1.12)。使用以下yaml文件，運行在k8s的master上，即每天備份etcd的數據了。

etcd-backup.yaml

apiVersion: batch/v1beta1
kind: CronJob
metadata:
  name: backup
  namespace: kube-system
spec:
  # activeDeadlineSeconds: 100
  schedule: "0 0 * * *"
  jobTemplate:
    spec:
      template:
        spec:
          containers:
          - name: backup
            # Same image as in /etc/kubernetes/manifests/etcd.yaml
            image: k8s.gcr.io/etcd-amd64:3.1.12
            env:
            - name: ETCDCTL_API
              value: "3"
            command: ["/bin/sh"]
            args: ["-c", "etcdctl --endpoints=https://127.0.0.1:2379 --cacert=/etc/kubernetes/pki/etcd/ca.crt --cert=/etc/kubernetes/pki/etcd/healthcheck-client.crt --key=/etc/kubernetes/pki/etcd/healthcheck-client.key snapshot save /backup/etcd-snapshot-$(date +%Y-%m-%d_%H:%M:%S_%Z).db"]
            volumeMounts:
            - mountPath: /etc/kubernetes/pki/etcd
              name: etcd-certs
              readOnly: true
            - mountPath: /backup
              name: backup
          restartPolicy: OnFailure
          nodeSelector:
            node-role.kubernetes.io/master: ""
          tolerations:
          - key: "node-role.kubernetes.io/master"
            effect: "NoSchedule"
          hostNetwork: true
          volumes:
          - name: etcd-certs
            hostPath:
              path: /etc/kubernetes/pki/etcd
              type: DirectoryOrCreate
          - name: backup
            hostPath:
              path: /tmp/etcd_backup/
              type: DirectoryOrCreate

從上面的yaml文件中，我們可以看到其實現思路：

1，定義為CronJob，這個pod每天淩晨會自動運行(schedule: "0 0 * * *")。

2，此pod是運行在master上的(nodeSelector + tolerations 實現)。

3，掛載了master機器上的/tmp/etcd_backup/作為備份目錄，這個目錄生產環境最好掛載或及時cp到其它機器，防止機器本身的意外情況。

4，傳進的參數為ETCDCTL_API版本3的命令進行備份。

Args參數中的"etcdctl --endpoints=https://127.0.0.1:2379 --cacert=/etc/kubernetes/pki/etcd/ca.crt --cert=/etc/kubernetes/pki/etcd/healthcheck-client.crt --key=/etc/kubernetes/pki/etcd/healthcheck-client.key snapshot save /backup/etcd-snapshot-$(date +%Y-%m-%d_%H:%M:%S_%Z).db"即為備份命令。它按照時間的格式命名etcd的備份數據。

B，單節點etcd數據恢復

如果已有備份數據，在只有etcd數據損壞的下，可根據以下步驟進行恢復。

1，將/etc/kubernetes/manifests/ kube-apiserver.yaml文件裏的鏡像版本更改，停止kube-api server服務。

2，將/etc/kubernetes/manifests/ etcd.yaml文件裏的鏡像版本更改，停止etcd server服務。

3，運行如下命令，將損壞的數據文件移至其它地方。

mv /var/lib/etcd/* /tmp/

4，運行以下命令，以臨時docker運行的方式，將數據從備份裏恢復到/var/lib/etcd/。

docker run --rm \

-v ‘/tmp:/backup‘ \

-v ‘/var/lib/etcd:/var/lib/etcd‘ \

--env ETCDCTL_API=3 \

‘k8s.gcr.io/etcd-amd64:3.1.12‘ \

/bin/sh -c "etcdctl snapshot restore ‘/backup/etcd-snapshot-xxx_UTC.db‘ ; mv /default.etcd/member/ /var/lib/etcd/"

[上面的命令中，假定我們已將待還原數據放置於/tmp/目錄下]

5，改回/etc/kubernetes/manifests/kube-apiserver.yaml文件裏的鏡像版本，恢復etcd server服務。

6，改回/etc/kubernetes/manifests/etcd.yaml文件裏的鏡像版本，恢復kube-api server服務。

二，Master節點控制組件的備份及恢復

一般來說，如果master節點需要備份恢復，那除了誤操作和刪除，很可能就是整個機器已出現了故障，故而可能需要同時進行etcd數據的恢復。

而在恢復時，有個前提條件，就是在待恢復的機器上，機器名稱和ip地址需要與崩潰前的主節點配置完成一樣，因為這個配置是寫進了etcd數據存儲當中的。

A，主節點數據備份

主節點數據的備份包括三個部分：

1，/etc/kubernetes/目錄下的所有文件(證書，manifest文件)

2，用戶主目錄下.kube/config文件(kubectl連接認證)

3，/var/lib/kubelet/目錄下所有文件(plugins容器連接認證)

[最好這一步，也作成cronjob的yaml，每天自動運行]

k8s-master-backup.yaml

apiVersion: batch/v1beta1
kind: CronJob
metadata:
  name: k8s-master-backup
  namespace: kube-system
spec:
  # activeDeadlineSeconds: 100
  schedule: "5 0 * * *"
  jobTemplate:
    spec:
      template:
        spec:
          containers:
          - name: k8s-master-backup
            image: 3rd_part/alpine:alpine-3.8_glibc-2.28
            command: ["/bin/sh"]
            args: ["-c", "tar -zcvf /backup/k8s-master-$(ifconfig eth0 | grep ‘inet addr:‘ | awk ‘{print $2}‘ | cut -c 6-)-$(date +%Y-%m-%d_%H:%M:%S_%Z).tar.gz /kubernetes /kubelet"]
            volumeMounts:
            - mountPath: /backup
              name: backup
            - mountPath: /kubernetes
              name: kubernetes
            - mountPath: /kubelet
              name: kubelet
          restartPolicy: OnFailure
          nodeSelector:
            node-role.kubernetes.io/master: ""
          tolerations:
          - key: "node-role.kubernetes.io/master"
            effect: "NoSchedule"
          hostNetwork: true
          volumes:
          - name: backup
            hostPath:
              path: /tmp/k8s_master_backup/
              type: DirectoryOrCreate
          - name: kubernetes
            hostPath:
              path: /etc/kubernetes/
              type: DirectoryOrCreate
          - name: kubelet
            hostPath:
              path: /var/lib/kubelet/
              type: DirectoryOrCreate

代碼解釋：

1，通過hostPath方式掛載了/etc/kubernetes目錄

2，以hostPath方式掛載了/var/lib/kubelet目錄

3，以hostNetwork: true方式運行，能讀取主機IP地址。

4，以nodeSelector方式，運行於k8s master節點。

5， Backup目錄默認掛載於宿主機/tmp/k8s_master_backup/，也需要及時保持到其它機器。

B，主節點組件恢復

主節點組件的恢復可按以下步驟進行：

1，按之前的安裝腳本進行全新安裝(kubeadm reset，iptables –X…)

2，恢復etcd數據(參見第一章節操作)。

3，將之前備份的兩個目錄依次還原(.kube/config文件不用還原，根據第4步的提示，還需要先刪除/etc/kubernetes/manifest/目錄下的文件，及/var/lib/kubelet/pki/目錄下的文件)。

4，運行如下命令，重新安裝k8s master節點，並使用以前認證和數據。

kubeadm init \

--pod-network-cidr=10.244.0.0/16 \

--kubernetes-version=${K8S_VERSION} \

--feature-gates=CoreDNS=true \

--ignore-preflight-errors=DirAvailable--var-lib-etcd

5，一杯咖啡，稍等片刻，待所有組件啟動成功後，根據輸出提示，運行如下兩條命令，將新的config文件cp到指定位置，進行驗證。

mkdir -p $HOME/.kube

cp -f /etc/kubernetes/admin.conf $HOME/.kube/config

Kubernetes Master節點災備恢復操作指南---升級版

ado gin store points true meta cli 3rd -- 本文檔簡述了Kubernetes主節點災備恢復的相關步驟，供在發生k8s master崩潰時操作。就算是在k8s裏部署了etcd群集, 主節點控制組件的高可用節點，災備恢復也是必須要實現

Kubernetes Master節點災備恢復操作指南---升級版

一，Etcd數據備份及恢復

A,單節點etcd數據備份

B，單節點etcd數據恢復

二，Master節點控制組件的備份及恢復

A，主節點數據備份

B，主節點組件恢復

Kubernetes Master節點災備恢復操作指南---升級版

Kubernetes master節點的高可用配置

Kubernetes 主節點宕機恢復記錄 MountVolume.SetUp failed for volume "kube-dns-config"

使用DOM操作表格升級版

Kubernetes（K8s）安裝部署過程（四）--Master節點安裝

Kubernetes叢集的主節點備份與恢復

kubernetes安裝過程中錯誤（kube-dns 狀態一直是Pending，master節點是NotReady）

Kubernetes探祕-多master節點容錯部署

使用amd64架構master節點管理arm架構kubernetes叢集

Kubernetes部署（六）：Master節點部署

Kubernetes高可用Master節點安裝_Kubernetes中文社群

能做到雲中分鐘級資料恢復愛數災備雲據說能引領行業10年

kubernetes學習：7.部署master節點

淺談kubernetes：master節點和node節點

網站增加《C++ Builder 操作指南》欄目，歡迎拍磚

kubernetes Master部署之Scheduler 以及 HA部署(5)

#18 cisco設備系統操作與計算機的進制轉換

Maven 操作指南

MS SQL恢復操作已將該數據庫標記為 suspect，質疑問題有效解決

三、安裝並配置Kubernetes Node節點

Kubernetes Master節點災備恢復操作指南---升級版

一，Etcd數據備份及恢復

A,單節點etcd數據備份

B，單節點etcd數據恢復

二，Master節點控制組件的備份及恢復

A，主節點數據備份

B，主節點組件恢復

相關推薦