在分散式排程中為了保證服務的高可用和容災需求，通常都會講服務在多個區域、機架、節點上平均分佈，從而避免單點故障引起的服務不可用，在k8s中自然也實現了該演算法即SelectorSpread, 本文就來學習下這個演算法的底層實現細節

1. 設計要點

1.1 zone與node

zone即代表一個區域，node則是一個具體的節點，而該打散演算法的目標就是將pod在zone和node之間進行打散操作

1.2 namespace

namespace是k8s中進行資源隔離的實現，同樣的篩選也是如此，在篩選的過程中，不同namespace下面的pod並不會相互影響

1.3 計數與聚合

SelectorSpread演算法是scheduler中優先順序演算法的一種，其實現了優先順序演算法的map/reduce方法，其中map階段需要完成對各個節點親和性的統計, 也就是統計該節點上的匹配的pod的數量，而reduce階段則是聚合所有匹配的數量，進行統計打分

1.4 參考物件

在k8s中有很多上層物件諸如service、replicaSet、statefulset等，而演算法打散的物件也是依據這些上層物件，讓單個service的多個pod進行平均分佈

1.5 選擇器

在傳統的基於資料庫的設計中，資料之間的關聯關係通常是基於外來鍵或者物件id來實現模型之間的關聯,而在kubernetes中則是通過selector來進行這種關係的對映，通過給物件定義不同的label然後在label上構造選擇器，從而實現各種資源之間的相互關聯

2. 實現原理

2.1 選擇器

2.1.1 選擇器介面

選擇器介面其關鍵方法主要是通過Matches來進行一組標籤的匹配，先關注這些就可以了，後續需要再去關注其核心實現

type Selector interface {
    // Matches returns true if this selector matches the given set of labels.
    Matches(Labels) bool
        // String returns a human readable string that represents this selector.
    String() string

    // Add adds requirements to the Selector
    Add(r ...Requirement) Selector
}

2.1.2 資源篩選

Selector陣列的實現其實也很簡單，就是遍歷所有相關聯的資源，然後用當前的pod上的Label標籤去搜索，如果發現有資源包含當前pod的標籤，就把對應資源的所有Selector都獲取出來，加入到selectors陣列中


func getSelectors(pod *v1.Pod, sl algorithm.ServiceLister, cl algorithm.ControllerLister, rsl algorithm.ReplicaSetLister, ssl algorithm.StatefulSetLister) []labels.Selector {
    var selectors []labels.Selector
    if services, err := sl.GetPodServices(pod); err == nil {
        for _, service := range services {
            selectors = append(selectors, labels.SelectorFromSet(service.Spec.Selector))
        }
    }
    if rcs, err := cl.GetPodControllers(pod); err == nil {
        for _, rc := range rcs {
            selectors = append(selectors, labels.SelectorFromSet(rc.Spec.Selector))
        }
    }
    if rss, err := rsl.GetPodReplicaSets(pod); err == nil {
        for _, rs := range rss {
            if selector, err := metav1.LabelSelectorAsSelector(rs.Spec.Selector); err == nil {
                selectors = append(selectors, selector)
            }
        }
    }
    if sss, err := ssl.GetPodStatefulSets(pod); err == nil {
        for _, ss := range sss {
            if selector, err := metav1.LabelSelectorAsSelector(ss.Spec.Selector); err == nil {
                selectors = append(selectors, selector)
            }
        }
    }
    return selectors
}

2.1 演算法註冊與初始化

2.1.1 演算法註冊

在構建演算法的時候，首先會從引數中獲取各種資源的Lister, 其實就是篩選物件的一個介面，可以從該介面中獲取叢集中對應型別的所有資源

    factory.RegisterPriorityConfigFactory(
        priorities.SelectorSpreadPriority,
        factory.PriorityConfigFactory{
            MapReduceFunction: func(args factory.PluginFactoryArgs) (priorities.PriorityMapFunction, priorities.PriorityReduceFunction) {
                return priorities.NewSelectorSpreadPriority(args.ServiceLister, args.ControllerLister, args.ReplicaSetLister, args.StatefulSetLister)
            },
            Weight: 1,
        },
    )

2.1.2 演算法初始化

演算法初始化則是構建一個SelectorSpread物件，我們可以看到其map和reduce的關鍵實現分別對應內部的兩個方法

func NewSelectorSpreadPriority(
    serviceLister algorithm.ServiceLister,
    controllerLister algorithm.ControllerLister,
    replicaSetLister algorithm.ReplicaSetLister,
    statefulSetLister algorithm.StatefulSetLister) (PriorityMapFunction, PriorityReduceFunction) {
    selectorSpread := &SelectorSpread{
        serviceLister:     serviceLister,
        controllerLister:  controllerLister,
        replicaSetLister:  replicaSetLister,
        statefulSetLister: statefulSetLister,
    }
    return selectorSpread.CalculateSpreadPriorityMap, selectorSpread.CalculateSpreadPriorityReduce
}

2.2 CalculateSpreadPriorityMap

2.2.1 構建選擇器

在進行Map核心統計階段之前會先根據當前的pod獲取其上的選擇器Selector陣列，即當前pod有那些選擇器相關聯，這個是在建立meta的時候完成

    var selectors []labels.Selector
    node := nodeInfo.Node()
    if node == nil {
        return schedulerapi.HostPriority{}, fmt.Errorf("node not found")
    }

    priorityMeta, ok := meta.(*priorityMetadata)
    if ok {
        // 在priorityMeta構建的時候已經完成
        selectors = priorityMeta.podSelectors
    } else {
        // 獲取當前pod的所有的selector 包括service  rs rc
        selectors = getSelectors(pod, s.serviceLister, s.controllerLister, s.replicaSetLister, s.statefulSetLister)
    }

    if len(selectors) == 0 {
        return schedulerapi.HostPriority{
            Host:  node.Name,
            Score: int(0),
        }, nil
    }

2.2.2 統計匹配計數

統計計數其實就是根據上面的selector陣列逐個遍歷當前node上面的所有pod如果發現全都匹配則計數一次，最後返回當前節點上匹配的pod的數量(這裡的匹配是指的所有都匹配即跟當前的pod的所有label匹配都一樣)

func countMatchingPods(namespace string, selectors []labels.Selector, nodeInfo *schedulernodeinfo.NodeInfo) int {
    //  計算當前node上面匹配的node的數量
    if nodeInfo.Pods() == nil || len(nodeInfo.Pods()) == 0 || len(selectors) == 0 {
        return 0
    }
    count := 0
    for _, pod := range nodeInfo.Pods() {
        // 這裡會跳過不同namespace和被刪除的pod
        if namespace == pod.Namespace && pod.DeletionTimestamp == nil {
            matches := true
            // 遍歷所有的選擇器，如果不匹配，則會立馬跳出
            for _, selector := range selectors {
                if !selector.Matches(labels.Set(pod.Labels)) { 
                    matches = false
                    break
                }
            }
            if matches {
                count++ // 記錄當前節點上匹配的pod的數量
            }
        }
    }
    return count
}

2.2.3 返回統計結果

最後返回對應node的名字和node上的匹配的pod的數量

    count := countMatchingPods(pod.Namespace, selectors, nodeInfo)

    return schedulerapi.HostPriority{
        Host:  node.Name,
        Score: count,
    }, nil

2.4 CalculateAntiAffinityPriorityReduce

2.4.1 計數器

計數器主要包含三個：單個node上最大的pod數量、單個zone裡面最大pod的數量、每個zone中pod的數量

    countsByZone := make(map[string]int, 10)
    maxCountByZone := int(0)
    maxCountByNodeName := int(0)

2.4.2 單節點最大統計與zone區域聚合

    for i := range result {
        if result[i].Score > maxCountByNodeName {
            maxCountByNodeName = result[i].Score // 尋找單節點上的最大pod數量
        }
        zoneID := utilnode.GetZoneKey(nodeNameToInfo[result[i].Host].Node())
        if zoneID == "" {
            continue
        }
        // 進行zone所有node匹配pod的聚合
        countsByZone[zoneID] += result[i].Score
    }

2.4.3 zone最大值統計

    for zoneID := range countsByZone {
        if countsByZone[zoneID] > maxCountByZone {
            maxCountByZone = countsByZone[zoneID]
        }
    }

2.4.4 核心計算打分演算法

核心打分演算法流程包含兩個級別：node級別和zone級別，其演算法為：
node: 10 * ((單節點最大匹配數量)-當前node的匹配數量)/最大節點匹配數量) = fscode
zone: 10 * ((單zone最大匹配數量)-當前zone的匹配數量)/最大zone匹配數量) = zoneScore
合併: fScore * (1.0 - zoneWeighting)) + (zoneWeighting * zoneScore (zoneWeighting=2/3)
即優先進行zone級別分佈，其次再是node

比如分別有3個node其匹配pod數量分別為:
node1:3, node2:5, node3:10 則打分結果為:
node1: 10 * ((10-3)/10) = 7
node2: 10 * ((10-5)/10) = 5
node3: (10* ((10-5)/10) = 0
可以看到其上匹配的pod數量越多最終的優先順序則越小
假設分別有3個zone(跟node編號相同), 則zone得分為：zone1=7, zone2=5, zone3=0
最終計分(zoneWeighting=2/3): node1=7, node2=5, node3=0

    maxCountByNodeNameFloat64 := float64(maxCountByNodeName)
    maxCountByZoneFloat64 := float64(maxCountByZone)
    MaxPriorityFloat64 := float64(schedulerapi.MaxPriority)

    for i := range result {
        // initializing to the default/max node score of maxPriority
        fScore := MaxPriorityFloat64
        if maxCountByNodeName > 0 {
            fScore = MaxPriorityFloat64 * (float64(maxCountByNodeName-result[i].Score) / maxCountByNodeNameFloat64)
        }
        // If there is zone information present, incorporate it
        if haveZones {
            zoneID := utilnode.GetZoneKey(nodeNameToInfo[result[i].Host].Node())
            if zoneID != "" {
                zoneScore := MaxPriorityFloat64
                if maxCountByZone > 0 {
                    zoneScore = MaxPriorityFloat64 * (float64(maxCountByZone-countsByZone[zoneID]) / maxCountByZoneFloat64)
                }
                fScore = (fScore * (1.0 - zoneWeighting)) + (zoneWeighting * zoneScore)
            }
        }
        result[i].Score = int(fScore)
        if klog.V(10) {
            klog.Infof(
                "%v -> %v: SelectorSpreadPriority, Score: (%d)", pod.Name, result[i].Host, int(fScore),
            )
        }
    }

今天就到這裡吧，其實可以看出在分佈的時候，是會優先嚐試zone分佈，然後在進行節點分佈，我比較好奇zoneWeighting=2/3這個值是怎麼來的，從註釋上看，老外也沒有證明，可能就是為了傾斜zone吧，大家週末愉快

微訊號：baxiaoshi2020
關注公告號閱讀更多原始碼分析文章
更多文章關注 www.sreguide.com
本文由部落格一文多發平臺 OpenWrite 釋出

相關推薦

圖解kubernetes服務打散演算法的實現原始碼

在分散式排程中為了保證服務的高可用和容災需求，通常都會講服務在多個區域、機架、節點上平均分佈，從而避免單點故障引起的服務不可用，在k8s中自然也實現了該演算法即SelectorSpread, 本文就來學習下這個演算法的底層實現細節 1. 設計要點 1.1 zone與node zone即代表一個區域，node則

圖解kubernetes排程器SchedulingQueue核心原始碼實現

SchedulingQueue是kubernetes scheduler中負責進行等待排程pod儲存的對，Scheduler通過SchedulingQueue來獲取當前系統中等待排程的Pod，本文主要討論SchedulingQueue的設計與實現的各種實現, 瞭解探究其內部實現與底層原始碼,本系列程式碼基於k

圖解kubernetes排程器SchedulerCache核心原始碼實現

SchedulerCache是kubernetes scheduler中負責本地資料快取的核心資料結構, 其實現了Cache介面,負責儲存從apiserver獲取的資料，提供給Scheduler排程器獲取Node的資訊，然後由排程演算法的決策pod的最終node節點,其中Snapshot和節點打散演算法非常值

基於OpenCV的三種光流演算法實現原始碼及測試結果

本文包括基於OpenCV的三種光流演算法的實現原始碼及測試結果。具體為HS演算法，LK演算法，和ctfLK演算法，演算法的原實現作者是Eric Yuan，這裡是作者的部落格主頁：http://eric-yuan.me。本文對這三種光流演算法進行了相關除錯及結果驗證，供大家

圖解kubernetes控制器StatefulSet核心實現原理

StatefulSet是k8s中有狀態應用管理的標準實現,今天就一起來了解下其背後設計的場景與原理,從而瞭解其適用範圍與場景 # 1. 基礎概念首先介紹有狀態應用裡面的需要考慮的一些基礎的事情，然後在下一章我們再去看statefulSet的關鍵實現 ## 1.1 有狀態與無狀態 ![image.png](

計算機圖形學實驗（三）——中點畫圓演算法實現及其原始碼

1.中點畫圓演算法簡介：（以第一象限內靠近Y軸的1/8圓為例）由於圓的對稱性，只需要考慮的圓上的點。舉例：引入建構函式：。分別表示點在圓外，圓上，圓內。如圖3-8所示：.M是P1和P2中點。當F(M)<0時，說明M在圓內，進而得知P1離圓弧更近；否則P

n個顧客等待服務-貪心演算法c++實現

#include<iostream> #include<algorithm> using namespace std; typedef struct pers{ int id; int time; }

排序演算法4——圖解希爾排序及其實現

排序演算法1——圖解氣泡排序及其實現（三種方法，基於模板及函式指標）排序演算法2——圖解簡單選擇排序及其實現排序演算法3——圖解直接插入排序以及折半（二分）插入排序及其實現排序演算法4——圖解希爾排序及其實現排序演算法5——圖解堆排序及其實現排序演算法6——圖解歸併排序及其遞迴與非

排序演算法2——圖解簡單選擇排序及其實現

排序演算法1——圖解氣泡排序及其實現（三種方法，基於模板及函式指標）排序演算法2——圖解簡單選擇排序及其實現排序演算法3——圖解直接插入排序以及折半（二分）插入排序及其實現排序演算法4——圖解希爾排序及其實現排序演算法5——圖解堆排序及其實現排序演算法6——圖解歸併排序及其遞迴與非

MD5演算法java實現原始碼

流程處理需要加密的字串：以byte[]的形式獲取，此時，每個字元為一個位元組，佔8位當此時獲得的位元組流對512位，也就是64個位元組取餘，結果不為448，即56個位元組時，使用1000……0的二進位制位進行補位，直到取餘結果為448,；而當結果為448時

[原始碼和文件分享]基於CUDA的卷積神經網路演算法實現

摘要卷積神經網路是近年來人工智慧領域取得重大突破的一種重要手段，給出了影象識別、語音識別和自然語言處理領域中關鍵問題的優化解決方案，尤其適合處理影象方面的任務，如人臉識別和手寫體識別。手寫數字識別是用卷積神經網路解決的經典問題，採用一般方法訓練出來的神經網路達到了97%的識別率，幾乎與人類的

10個重要的演算法C語言實現原始碼：拉格朗日，牛頓插值，高斯，龍貝格，牛頓迭代，牛頓-科特斯，雅克比，秦九昭，冪法，高斯塞德爾

（一）拉格朗日插值多項式 #include <stdio.h> #include <conio.h> #include <alloc.h> &n

Dubbo原始碼實現五：RPC中的服務消費方實現

剛開始使用Dubbo的人，可能對Dubbo的第一印象就是它是一個RPC框架，當然，所有的分散式框架都少不了相互通訊的過程，何況Dubbo的任務就是幫助分散式業務系統完成服務的通訊、負載、註冊、發現和監控等功能。不得不承認，RPC是Dubbo提供服務的核心流程，

[R][原始碼]EM演算法實現基於高斯混合模型（GMM）的聚類

要求：用EM演算法實現基於GMM的聚類演算法。一、實驗資料參考[1] 3.3.2章節。由兩個二維高斯分佈混合生成1000個數據，混合係數分別是0.4、0.6，均值和方差如下：mu1=[-2,-2]sigma1=[1.2, 0.5, 0.5, 1]mean2=[2,2]sigm

LRU（近期最少使用演算法）C++實現原始碼

寫在前面今天一同學去公司實習面試，面試官要求手寫LRU演算法，有些懵。在這裡想寫篇部落格給他作為參考，同時也給大家作為參考。 LRU（最近最少使用演算法） LRU是CPU cache中n-w

STL原始碼分析----神奇的 list 的 sort 演算法實現

STL中有一個std::sort演算法，但它是不支援std::list的，因為list不提供RandomIterator的支援，但list自己提供了sort演算法，把list的元素按從小到大的方式來排序，程式碼長度到不長，但真是難以讀懂，後來扣持了一下午終於搞明白了，貼個

Redis原始碼分析（三十五）--- redis.c服務端的實現分析（2）

在Redis服務端的程式碼量真的是比較大，如果一個一個API的學習怎麼實現，無疑是一種效率很低的做法，所以我今天對服務端的實現程式碼的學習，重在他的執行流程上，而對於他的模組設計在上一篇中我已經分析過了，不明白的同學可以接著看上篇。所以我學習分析redis服務

神經網路中BP演算法的原理與用Python實現原始碼

（1）什麼是梯度下降和鏈式求導法則 1.梯度下降假設我們有一個函式J(w),如下圖所示。現在，我們要求當w等於什麼的時候，J(w)能夠取到最小值。從圖中我們知道最小值在初始位置的左邊，也就意味著如果想要使J(w)最小，w的值需要減小。而初始位置的切線斜率a>0

先來先服務演算法實現

實現程式碼：#include<stdio.h>float t,d; /*定義兩個全域性變數*/struct /*定義一個結構體陣列,包括程序的資訊*/{ int id; float ArriveTime; float RequestTime; float Star

《演算法導論》第19章二項堆的實現原始碼

BinormialHeap.h #ifndef _BINOMAIL_HEAP_H #define _BINOMAIL_HEAP_H // 定義一個求有符號的無窮大的巨集 #define SIGN_INFINITELY_GREAT(T) ((0x1<<8*s