k8s的Health Check（健康檢查）

阿新 • • 發佈：2018-11-10

強大的自愈能力是 Kubernetes 這類容器編排引擎的一個重要特性。自愈的預設實現方式是自動重啟發生故障的容器。除此之外，使用者還可以利用 Liveness 和 Readiness 探測機制設定更精細的健康檢查，進而實現如下需求：

零停機部署。
避免部署無效的映象。
更加安全的滾動升級。

下面通過實踐學習 Kubernetes 的 Health Check 功能。

1.預設的健康檢查

我們首先學習 Kubernetes 預設的健康檢查機制：

每個容器啟動時都會執行一個程序，此程序由 Dockerfile 的 CMD 或 ENTRYPOINT 指定。如果程序退出時返回碼非零，則認為容器發生故障，Kubernetes 就會根據 restartPolicy

重啟容器。

下面我們模擬一個容器發生故障的場景，Pod 配置檔案如下：

apiVersion: v1
kind: Pod
metadata:
  labels:
    test: healthcheck
  name: healthcheck
spec:
  restartPolicy: OnFailure
  containers:
  - name: healthcheck
    image: busybox
    args:
    - /bin/sh
    - -c
    - sleep 10; exit 1

View Code

Pod 的 restartPolicy 設定為 OnFailure，預設為 Always。

sleep 10; exit 1 模擬容器啟動 10 秒後發生故障。

執行 kubectl apply 建立 Pod，命名為 healthcheck。

可看到容器當前已經重啟了 4 次。

在上面的例子中，容器程序返回值非零，Kubernetes 則認為容器發生故障，需要重啟。但有不少情況是發生了故障，但程序並不會退出。比如訪問 Web 伺服器時顯示 500 內部錯誤，可能是系統超載，也可能是資源死鎖，此時 httpd 程序並沒有異常退出，在這種情況下重啟容器可能是最直接最有效的解決方案，那我們如何利用 Health Check 機制來處理這類場景呢？

答案是 Liveness

2.Liveness探測

Liveness 探測讓使用者可以自定義判斷容器是否健康的條件。如果探測失敗，Kubernetes 就會重啟容器。

還是舉例說明，建立如下 Pod：

apiVersion: v1
kind: Pod
metadata:
  labels:
    test: liveness
  name: liveness
spec:
  restartPolicy: OnFailure
  containers:
  - name: liveness
    image: busybox
    args:
    - /bin/sh
    - -c
    - touch /tmp/healthy; sleep 30; rm -fr /tmp/healthy; sleep 600
    livenessProbe:
      exec:
        command:
        - cat
        - /tmp/healthy
      initialDelaySeconds: 10
      periodSeconds: 5

View Code

啟動程序首先建立檔案 /tmp/healthy，30 秒後刪除，在我們的設定中，如果 /tmp/healthy 檔案存在，則認為容器處於正常狀態，反正則發生故障。

livenessProbe 部分定義如何執行 Liveness 探測：

探測的方法是：通過 cat 命令檢查 /tmp/healthy 檔案是否存在。如果命令執行成功，返回值為零，Kubernetes 則認為本次 Liveness 探測成功；如果命令返回值非零，本次 Liveness 探測失敗。
initialDelaySeconds: 10 指定容器啟動 10 之後開始執行 Liveness 探測，我們一般會根據應用啟動的準備時間來設定。比如某個應用正常啟動要花 30 秒，那麼 initialDelaySeconds 的值就應該大於 30。
periodSeconds: 5 指定每 5 秒執行一次 Liveness 探測。Kubernetes 如果連續執行 3 次 Liveness 探測均失敗，則會殺掉並重啟容器。

下面建立 Pod liveness：

從配置檔案可知，最開始的 30 秒，/tmp/healthy 存在，cat 命令返回 0，Liveness 探測成功，這段時間 kubectl describe pod liveness 的 Events部分會顯示正常的日誌。

2m3s =123s 123s-30s（初始化時間）=93s 可以檢查三次，對應的RESTARTS次數為3

3.Readiness探測

除了 Liveness 探測，Kubernetes Health Check 機制還包括 Readiness 探測。

使用者通過 Liveness 探測可以告訴 Kubernetes 什麼時候通過重啟容器實現自愈；Readiness 探測則是告訴 Kubernetes 什麼時候可以將容器加入到 Service 負載均衡池中，對外提供服務。

Readiness 探測的配置語法與 Liveness 探測完全一樣，下面是個例子：

apiVersion: v1
kind: Pod
metadata:
  labels:
    test: readiness
  name: readiness
spec:
  restartPolicy: OnFailure
  containers:
  - name: readiness
    image: busybox
    args:
    - /bin/sh
    - -c
    - touch /tmp/healthy; sleep 30; rm -rf /tmp/healthy
    readinessProbe:
      exec:
        command:
        - cat
        - /tmp/healthy
      initialDelaySeconds: 10
      periodSeconds: 5

View Code

這個配置檔案只是將前面例子中的 liveness 替換為了 readiness，我們看看有什麼不同的效果。

Pod readiness 的 READY 狀態經歷瞭如下變化：

剛被建立時，READY 狀態為不可用。
15 秒後（initialDelaySeconds + periodSeconds），第一次進行 Readiness 探測併成功返回，設定 READY 為可用。
30 秒後，/tmp/healthy 被刪除，連續 3 次 Readiness 探測均失敗後，READY 被設定為不可用 STATUS變為Completed，而RESTARTS一直為0。

通過 kubectl describe pod readiness 也可以看到 Readiness 探測失敗的日誌。

下面對 Liveness 探測和 Readiness 探測做個比較：

Liveness 探測和 Readiness 探測是兩種 Health Check 機制，如果不特意配置，Kubernetes 將對兩種探測採取相同的預設行為，即通過判斷容器啟動程序的返回值是否為零來判斷探測是否成功。
兩種探測的配置方法完全一樣，支援的配置引數也一樣。不同之處在於探測失敗後的行為：Liveness 探測是重啟容器；Readiness 探測則是將容器設定為不可用，不接收 Service 轉發的請求。
Liveness 探測和 Readiness 探測是獨立執行的，二者之間沒有依賴，所以可以單獨使用，也可以同時使用。用 Liveness 探測判斷容器是否需要重啟以實現自愈；用 Readiness 探測判斷容器是否已經準備好對外提供服務。

4.Health Check在滾動更新中使用

對於多副本應用，當執行 Scale Up 操作時，新副本會作為 backend 被新增到 Service 的負責均衡中，與已有副本一起處理客戶的請求。考慮到應用啟動通常都需要一個準備階段，比如載入快取資料，連線資料庫等，從容器啟動到正真能夠提供服務是需要一段時間的。我們可以通過 Readiness 探測判斷容器是否就緒，避免將請求傳送到還沒有 ready 的 backend。

下面是示例應用的配置

重點關注 readinessProbe 部分。這裡我們使用了不同於 exec 的另一種探測方法 -- httpGet。Kubernetes 對於該方法探測成功的判斷條件是 http 請求的返回程式碼在 200-400 之間。

schema 指定協議，支援 HTTP（預設值）和 HTTPS。
path 指定訪問路徑。
port 指定埠。

上面配置的作用是：

容器啟動 10 秒之後開始探測。
如果 http://[container_ip]:8080/healthy 返回程式碼不是 200-400，表示容器沒有就緒，不接收 Service web-svc 的請求。
每隔 5 秒再探測一次。
直到返回程式碼為 200-400，表明容器已經就緒，然後將其加入到 web-svc 的負責均衡中，開始處理客戶請求。
探測會繼續以 5 秒的間隔執行，如果連續發生 3 次失敗，容器又會從負載均衡中移除，直到下次探測成功重新加入。

對於 http://[container_ip]:8080/healthy，應用則可以實現自己的判斷邏輯，比如檢查所依賴的資料庫是否就緒，示例程式碼如下：

k8s的Health Check（健康檢查）

1.預設的健康檢查

2.Liveness探測

3.Readiness探測

4.Health Check在滾動更新中使用

k8s的Health Check（健康檢查）

Java使用double check（雙重檢查）實現單例模式的一個小細節

spring-boot-starter-actuator（健康監控）配置和使用

exchange 2016開啟和關閉發件人ID篩選（SPF檢查）功能

Java單例模式（雙重檢查）

單項資料繫結、雙向資料繫結及其原理（髒檢查）

eShopOnContainers學習系列（二）：數據庫連接健康檢查

【Consul】Consul實踐指導-健康檢查（Checks）

pod健康檢查（LivenessProbe和ReadinessProbe）

從頭認識Spring-3.8 簡單的AOP日誌實現（註解版）-擴展添加檢查訂單功能，以便記錄並檢測輸入的參數

java異常—檢查異常（checked exception）和未檢查異常（unchecked exception）

[POJ2151]Check the difficulty of problems（概率DP）

鏈表實現學生健康信息管理系統（簡略版）

MySQL備份腳本V2（添加日誌功能及備份後檢查）

Java 檢查異常（checked exception）和未檢查異常（unchecked exception）區別理解

java單例模式（雙重檢查加鎖）的原因

（待修莫隊沒過！抽空在檢查）Dynamic len(set(a[L:R])) UVA - 12345

Warning not all local changes may be shown due to an error...... （IDEA檢查不到程式碼變化）

tensorflow檢查op是否可導（反向傳播）

faster-rcnn中新增Mask中的RoiAlign層，使迴歸框更精確（ roi_align_layer.cu:240] Check failed: error == cudaSuccess *）

k8s的Health Check（健康檢查）

1.預設的健康檢查

2.Liveness探測

3.Readiness探測

4.Health Check在滾動更新中使用

相關推薦