k8s之list-watch機制、節點排程以及親和性

阿新 • • 發佈：2021-11-09

k8s之list-watch機制、節點排程以及親和性

k8s之list-watch機制、節點排程以及親和性

一、list-watch機制

1. list-watch介紹

Kubernetes 是通過 List-Watch 的機制進行每個元件的協作，保持資料同步的，每個元件之間的設計實現瞭解耦。
使用者是通過 kubectl 根據配置檔案，向 APIServer 傳送命令，在 Node 節點上面建立 Pod 和 Container。
APIServer 經過 API 呼叫，許可權控制，呼叫資源和儲存資源的過程，實際上還沒有真正開始部署應用。這裡需要 Controller Manager、Scheduler 和 kubelet 的協助才能完成整個部署過程。
在 Kubernetes 中，所有部署的資訊都會寫到 etcd 中儲存。實際上 etcd 在儲存部署資訊的時候，會發送 Create 事件給 APIServer，而 APIServer 會通過監聽（Watch）etcd 發過來的事件。其他元件也會監聽（Watch）APIServer 發出來的事件。

2. list-watch工作流程

Pod是Kubernetes的基礎單元，Pod 啟動典型建立過程如下

（1）這裡有三個 List-Watch，分別是 Controller Manager（執行在 Master），Scheduler（執行在 Master），kubelet（執行在 Node）。他們在程序已啟動就會監聽（Watch）APIServer 發出來的事件。
（2）使用者通過 kubectl 或其他 API 客戶端提交請求給 APIServer 來建立一個 Pod 物件副本。
（3）APIServer 嘗試著將 Pod 物件的相關元資訊存入 etcd 中，待寫入操作執行完成，APIServer 即會返回確認資訊至客戶端。
（4）當 etcd 接受建立 Pod 資訊以後，會發送一個 Create 事件給 APIServer。
（5）由於 Controller Manager 一直在監聽（Watch，通過http的8080埠）APIServer 中的事件。此時 APIServer 接受到了 Create 事件，又會發送給 Controller Manager。
（6）Controller Manager 在接到 Create 事件以後，呼叫其中的 Replication Controller 來保證 Node 上面需要建立的副本數量。一旦副本數量少於 RC 中定義的數量，RC 會自動建立副本。總之它是保證副本數量的 Controller（PS：擴容縮容的擔當）。
（7）在 Controller Manager 建立 Pod 副本以後，APIServer 會在 etcd 中記錄這個 Pod 的詳細資訊。例如 Pod 的副本數，Container 的內容是什麼。
（8）同樣的 etcd 會將建立 Pod 的資訊通過事件傳送給 APIServer。
（9）由於 Scheduler 在監聽（Watch）APIServer，並且它在系統中起到了“承上啟下”的作用，“承上”是指它負責接收建立的 Pod 事件，為其安排 Node；“啟下”是指安置工作完成後，Node 上的 kubelet 程序會接管後繼工作，負責 Pod 生命週期中的“下半生”。換句話說，Scheduler 的作用是將待排程的 Pod 按照排程演算法和策略繫結到叢集中 Node 上。
（10）Scheduler 排程完畢以後會更新 Pod 的資訊，此時的資訊更加豐富了。除了知道 Pod 的副本數量，副本內容。還知道部署到哪個 Node 上面了。並將上面的 Pod 資訊更新至 API Server，由 APIServer 更新至 etcd 中，儲存起來。
（11）etcd 將更新成功的事件傳送給 APIServer，APIServer 也開始反映此 Pod 物件的排程結果。
（12）kubelet 是在 Node 上面執行的程序，它也通過 List-Watch 的方式監聽（Watch，通過https的6443埠）APIServer 傳送的 Pod 更新的事件。kubelet 會嘗試在當前節點上呼叫 Docker 啟動容器，並將 Pod 以及容器的結果狀態回送至 APIServer。
（13）APIServer 將 Pod 狀態資訊存入 etcd 中。在 etcd 確認寫入操作成功完成後，APIServer將確認資訊傳送至相關的 kubelet，事件將通過它被接受。
注意：在建立 Pod 的工作就已經完成了後，為什麼 kubelet 還要一直監聽呢？原因很簡單，假設這個時候 kubectl 發命令，要擴充 Pod 副本數量，那麼上面的流程又會觸發一遍，kubelet 會根據最新的 Pod 的部署情況調整 Node 的資源。又或者 Pod 副本數量沒有發生變化，但是其中的映象檔案升級了，kubelet 也會自動獲取最新的映象檔案並且載入。

二、節點排程

1. 排程策略

Sheduler是作為單獨的程式執行的，啟動之後會一直監聽APIServer，獲取spec.nodeName為空的pod，對每個pod都會建立一個binding，表明該pod應該放到哪個節點上。
排程分為幾個部分：首先是過濾掉不滿足條件的節點，這個過程稱為預算策略（predicate）；然後對通過的節點按照優先順序排序，這個是優選策略（priorities）；最後從中選擇優先順序最高的節點。如果中間任何一步驟有錯誤，就直接返回錯誤。

2. 預算策略

Predicate（預算策略）常見的演算法可以使用
● PodFitsResources：節點上剩餘的資源是否大於 pod 請求的資源。
● PodFitsHost：如果 pod 指定了 NodeName，檢查節點名稱是否和 NodeName 匹配。
● PodFitsHostPorts：節點上已經使用的 port 是否和 pod 申請的 port 衝突。
● PodSelectorMatches：過濾掉和 pod 指定的 label 不匹配的節點。
● NoDiskConflict：已經 mount 的 volume 和 pod 指定的 volume 不衝突，除非它們都是隻讀。
如果在 predicate 過程中沒有合適的節點，pod 會一直在 pending 狀態，不斷重試排程，直到有節點滿足條件。經過這個步驟，如果有多個節點滿足條件，就繼續 priorities 過程：按照優先順序大小對節點排序。

3. 優選策略

優先順序由一系列鍵值對組成，鍵是該優先順序項的名稱，值是它的權重（該項的重要性）。有一系列的常見的優先順序選項包括：
● LeastRequestedPriority：通過計算CPU和Memory的使用率來決定權重，使用率越低權重越高。也就是說，這個優先順序指標傾向於資源使用比例更低的節點。
● BalancedResourceAllocation：節點上 CPU 和 Memory 使用率越接近，權重越高。這個一般和上面的一起使用，不單獨使用。比如 node01 的 CPU 和 Memory 使用率 20:60，node02 的 CPU 和 Memory 使用率 50:50，雖然 node01 的總使用率比 node02 低，但 node02 的 CPU 和 Memory 使用率更接近，從而排程時會優選 node02。
● ImageLocalityPriority：傾向於已經有要使用映象的節點，映象總大小值越大，權重越高。
優選策略通過演算法對所有的優先順序專案和權重進行計算，得出最終的結果。

4. 指定排程節點

4.1 方法一：nodeName

使用pod.spec.nodeName 引數，將Pod直接排程到指定的Node節點上，會跳過 Scheduler 的排程策略，該匹配規則是強制匹配

vim myapp.yaml
apiVersion: extensions/v1beta1  
kind: Deployment  
metadata:
  name: myapp
spec:
  replicas: 3
  template:
    metadata:
      labels:
        app: myapp
    spec:
      nodeName: node02
      containers:
      - name: myapp
        image: niginx
        ports:
        - containerPort: 80
        
kubectl apply -f myapp.yaml

kubectl get pods -o wide

4.2 方法二：nodeSelector

使用pod.spec.nodeSelector引數，通過 kubernetes 的 label-selector 機制選擇節點，由排程器排程策略匹配 label，然後排程 Pod 到目標節點，該匹配規則屬於強制約束

kubectl label --help                                                    #獲取標籤幫助

需要獲取 node 上的 NAME 名稱
kubectl get node

給對應的 node 設定標籤分別為 abc=a 和 abc=b
kubectl label nodes node01 abc=aaa
kubectl label nodes node02 abc=bbb

檢視標籤
kubectl get nodes --show-labels

修改成 nodeSelector 排程方式
vim myapp1.yaml
apiVersion: extensions/v1beta1  
kind: Deployment  
metadata:
  name: myapp1
spec:
  replicas: 3
  template:
    metadata:
      labels:
        app: myapp1
    spec:
      nodeSelector:
        kgc: a
      containers:
      - name: myapp1
        image: soscscs/myapp:v1
        ports:
        - containerPort: 80

kubectl apply -f myapp1.yaml 

kubectl get pods -o wide

檢視詳細事件（通過事件可以發現要先經過 scheduler 排程分配）
kubectl describe pod myapp1-9dfb588f8-9qttn

修改一個 label 的值，需要加上 --overwrite 引數（表示覆蓋，新增label不需要）
kubectl label nodes node02 abc=ccc --overwrite

刪除一個 label，只需在命令列最後指定 label 的 key 名並與一個減號相連即可：
kubectl label nodes node02 abc-

指定標籤查詢 node 節點
kubectl get node -l abc=aaa

三、親和性

1. 官方文件

https://kubernetes.io/zh/docs/concepts/scheduling-eviction/assign-pod-node/

2. 節點親和性

pod.spec.nodeAffinity
● preferredDuringSchedulingIgnoredDuringExecution：軟策略
● requiredDuringSchedulingIgnoredDuringExecution：硬策略

3. Pod親和性

pod.spec.affinity.podAffinity/podAntiAffinity
● preferredDuringSchedulingIgnoredDuringExecution：軟策略
● requiredDuringSchedulingIgnoredDuringExecution：硬策略

4. 鍵值運算關係

● In：label 的值在某個列表中
● NotIn：label 的值不在某個列表中
● Gt：label 的值大於某個值
● Lt：label 的值小於某個值
● Exists：某個 label 存在
● DoesNotExist：某個 label 不存在

5. 節點親和性（硬策略）測試

requiredDuringSchedulingIgnoredDuringExecution：硬策略

vim pod1.yaml
apiVersion: v1
kind: Pod
metadata:
  name: nginx001
  labels:
    app: node-affinity-pod
spec:
  containers:
  - name: with-node-affinity
    image: soscscs/myapp:v1
  affinity:
    nodeAffinity:
      requiredDuringSchedulingIgnoredDuringExecution:
        nodeSelectorTerms:
        - matchExpressions:
          - key: kubernetes.io/hostname
#指定node的標籤
            operator: NotIn
#設定Pod安裝到kubernetes.io/hostname的標籤值不在values列表中的node上
            values:
            - node02
            
kubectl apply -f pod1.yaml

kubectl get pods -o wide

kubectl delete pod --all && kubectl apply -f pod1.yaml && kubectl get pods -o wide
#如果硬策略不滿足條件，Pod 狀態一直會處於 Pending 狀態

5. 節點親和性（軟策略）測試

preferredDuringSchedulingIgnoredDuringExecution：軟策略

vim pod2.yaml
apiVersion: v1
kind: Pod
metadata:
  name: affinity
  labels:
    app: node-affinity-pod
spec:
  containers:
  - name: with-node-affinity
    image: soscscs/myapp:v1
  affinity:
    nodeAffinity:
      preferredDuringSchedulingIgnoredDuringExecution:
      - weight: 1
#如果有多個軟策略選項的話，權重越大，優先順序越高
        preference:
          matchExpressions:
          - key: kubernetes.io/hostname
            operator: In
            values:
            - node03

kubectl apply -f pod2.yaml

kubectl get pods -o wide
把values:的值改成node01，則會優先在node01上建立Pod

kubectl delete pod --all && kubectl apply -f pod2.yaml && kubectl get pods -o wide

6. 軟硬策略結合測試

如果把硬策略和軟策略合在一起使用，則要先滿足硬策略之後才會滿足軟策略
示例：

apiVersion: v1
kind: Pod
metadata:
  name: affinity
  labels:
    app: node-affinity-pod
spec:
  containers:
  - name: with-node-affinity
    image: soscscs/myapp:v1
  affinity:
    nodeAffinity:
      requiredDuringSchedulingIgnoredDuringExecution:        #先滿足硬策略，排除有kubernetes.io/hostname=node02標籤的節點
        nodeSelectorTerms:
        - matchExpressions:
          - key: kubernetes.io/hostname
            operator: NotIn
            values:
            - node02
      preferredDuringSchedulingIgnoredDuringExecution:         #再滿足軟策略，優先選擇有abc=aaa標籤的節點
      - weight: 1
        preference:
          matchExpressions:
          - key: abc
            operator: In
            values:
            - aaa

7. 親和性的排程策略

排程策略	匹配標籤	操作符	拓撲域支援	排程目標
nodeAffinity	主機	In, NotIn, Exists,DoesNotExist, Gt, Lt	否	指定主機
podAffinity	Pod	In, NotIn, Exists,DoesNotExist	是	Pod與指定Pod同一拓撲域
podAntiAffinity	Pod	In, NotIn, Exists,DoesNotExist	是	Pod與指定Pod不在同一拓撲域

建立一個標籤為 app=myapp01 的 Pod

vim pod3.yaml
apiVersion: v1
kind: Pod
metadata:
  name: myapp01
  labels:
    app: myapp01
spec:
  containers:
  - name: with-node-affinity
    image: nginx
kubectl apply -f pod3.yaml
 
kubectl get pods --show-labels -o wide

使用Pod親和性排程

vim pod4.yaml
apiVersion: v1
kind: Pod
metadata:
  name: myapp02
  labels:
    app: myapp02
spec:
  containers:
  - name: myapp02
    image: nginx
  affinity:
    podAffinity:
      requiredDuringSchedulingIgnoredDuringExecution:
      - labelSelector:
          matchExpressions:
          - key: app
            operator: In
            values:
            - myapp01
        topologyKey: kubernetes.io/hostname      
kubectl apply -f pod4.yaml

kubectl get pods --show-labels -o wide

vim pod5.yaml
apiVersion: v1
kind: Pod
metadata:
  name: myapp03
  labels:
    app: myapp03
spec:
  containers:
  - name: myapp03
    image: nginx
  affinity:
    podAntiAffinity:
      preferredDuringSchedulingIgnoredDuringExecution:
      - weight: 100
        podAffinityTerm:
          labelSelector:
            matchExpressions:
            - key: app
              operator: In
              values:
              - myapp01
          topologyKey: kubernetes.io/hostname

#如果節點處於 Pod 所在的同一拓撲域且具有鍵“app”和值“myapp01”的標籤， 則該 pod 不應將其排程到該節點上。 （如果 topologyKey 為 kubernetes.io/hostname，則意味著當節點和具有鍵 “app”和值“myapp01”的 Pod 處於相同的區域，Pod 不能被排程到該節點上。）

kubectl apply -f pod5.yaml

kubectl get pods --show-labels -o wide

四、總結

節點親和

排程到滿足 Node 節點的標籤條件的Node節點 nodeAffinity
硬策略：必須滿足條件 requiredDuringSchedulingIgnoredDuringExecution
軟策略：儘量滿足條件，滿足不了也沒關係 preferredDuringSchedulingIgnoredDuringExecution

硬策略配置：

spec:
  affinity:
    nodeAffinity:
      requiredDuringSchedulingIgnoredDuringExecution:
        nodeSelectorTerms:
        - matchExpressions:
          - key: KEY_NAME
            operator: In/NotIn/Exists/DoesNotExist/Gt/Lt
            values:
            - KEY_VALUE

軟策略配置：

spec:
  affinity:
    nodeAffinity:
      preferredDuringSchedulingIgnoredDuringExecution:
      - weight: WEIGHT_VALUE
        preference:
          matchExpressions:
          - key: KEY_NAME
            operator: In/NotIn/Exists/DoesNotExist
            values:
            - KEY_VALUE

pod親和
pod親和（podAffinity）：排程到滿足pod的標籤條件所對應的node節點（用的硬策略）

spec:
  affinity:
    podAffinity:
      requiredDuringSchedulingIgnoredDuringExecution:
      - labelSelector:
          matchExpressions:
          - key: app
            operator: In/NotIn/Exists/DoesNotExist
            values:
            - KEY_VALUE
        topologyKey: kubernetes.io/hostname
#Pod親和必須攜帶拓撲域欄位

pod反親和（podAntiAffinity）：不排程到滿足pod的標籤條件所對應的node節點（用的軟策略）

spec:
  containers:
  affinity:
    podAntiAffinity:
      preferredDuringSchedulingIgnoredDuringExecution:
      - weight: WEIGHT_VALUE
        podAffinityTerm:
          labelSelector:
            matchExpressions:
            - key: app
              operator: In/NotIn/Exists/DoesNotExist
              values:
              - KEY_VALUE
          topologyKey: kubernetes.io/hostname

k8s之list-watch機制、節點排程以及親和性

k8s之list-watch機制、節點排程以及親和性

一、list-watch機制

1. list-watch介紹

2. list-watch工作流程

二、節點排程

1. 排程策略

2. 預算策略

3. 優選策略

4. 指定排程節點

4.1 方法一：nodeName

4.2 方法二：nodeSelector

三、親和性

1. 官方文件

2. 節點親和性

3. Pod親和性

4. 鍵值運算關係

5. 節點親和性（硬策略）測試

5. 節點親和性（軟策略）測試

6. 軟硬策略結合測試

7. 親和性的排程策略

四、總結

相關推薦