ScheduleAlgorithm是一個介面負責為pod選擇一個合適的node節點,本節主要解析如何實現一個可擴充套件、可配置的通用演算法框架來實現通用排程,如何進行演算法的統一註冊和構建,如何進行metadata和排程流程上下文資料的傳遞

1. 設計思考

1.1 排程設計

1.1.1 排程與搶佔

當接收到pod需要被排程後，預設首先呼叫schedule來進行正常的業務排程嘗試從當前叢集中選擇一個合適的node

如果排程失敗則嘗試搶佔排程,根據優先順序搶佔低優先順序的pod執行高優先順序pod

1.1.2 排程階段

在k8s的排程演算法執行流程中，主要分為兩個階段：預選和優選，即從當前叢集中選擇符合要求的node，再從這些node中選擇最合適的節點

1.1.3 節點選擇

隨著叢集的增加叢集中的node數量越來越多，k8s並不是遍歷所有叢集資源，而是隻選取部分節點，同時藉助之前說的 schedulerCache來實現pod節點的分散

1.2 框架設計

1.2.1 登錄檔與演算法工廠

針對不同的演算法，宣告不同的登錄檔，負責叢集中當前所有演算法的註冊，從而提供給排程配置決策載入那些外掛，實現演算法的可擴充套件性

並通過工廠模式來進行統一管理，解耦演算法的註冊與具體排程流程中的使用，由每個演算法的工廠方法來接受引數進行具體演算法的建立

1.2.3 metadata與PluginContext

在排程實際執行的過程中，需要集合當前叢集中的元資料資訊(node和pod)來進行具體演算法的決策，scheduler採用PredicateMetadataProducer和PriorityMetadataProducer來進行元資料的構建, 其次針對一些可能被多個演算法都使用的資料，也會在這裡完成構建，比如親和性的pod、拓撲等

並通過PluginContext進行本次排程上下文資料的儲存，用於在多個排程演算法之間儲存資料進行互動

1.2.4 Provider

Provider主要是封裝一組具體的預選和優選演算法，並通過註冊來實現統一管理, 其中系統內建了DefaultProvider

1.2.5 framework

framework是一種內部的擴充套件機制，通過定製給定的階段函式，進行排程流程的影響，本節先不介紹

1.2.6 extender

一種外部的擴充套件機制，可以根據需要進行動態的配置，其實就是外部的一個service，但是相比framework可以使用自己獨立的資料儲存，實現對排程器的擴充套件

2. 原始碼分析

2.1 資料結構

type genericScheduler struct {
    cache                    internalcache.Cache
    schedulingQueue          internalqueue.SchedulingQueue
    predicates               map[string]predicates.FitPredicate
    priorityMetaProducer     priorities.PriorityMetadataProducer
    predicateMetaProducer    predicates.PredicateMetadataProducer
    prioritizers             []priorities.PriorityConfig
    framework                framework.Framework
    extenders                []algorithm.SchedulerExtender
    alwaysCheckAllPredicates bool
    nodeInfoSnapshot         *schedulernodeinfo.Snapshot
    volumeBinder             *volumebinder.VolumeBinder
    pvcLister                corelisters.PersistentVolumeClaimLister
    pdbLister                algorithm.PDBLister
    disablePreemption        bool
    percentageOfNodesToScore int32
    enableNonPreempting      bool
}

2.1.1 叢集資料

叢集元資料主要分為三部分:
Cache: 儲存從apiserver獲取的資料
SchedulingQueue: 儲存當前佇列中等待排程和經過排程但是未真正執行的pod

    cache                    internalcache.Cache
    schedulingQueue          internalqueue.SchedulingQueue
    nodeInfoSnapshot         *schedulernodeinfo.Snapshot

2.1.1 預選演算法相關

預選演算法主要包含兩部分：當前使用的預選排程演算法結合和元資料構建器

    predicates               map[string]predicates.FitPredicate
    predicateMetaProducer    predicates.PredicateMetadataProducer

2.1.3 優先順序演算法相關

優選演算法與預選演算法不太相同，在後續文章中會進行介紹

    priorityMetaProducer     priorities.PriorityMetadataProducer
    prioritizers             []priorities.PriorityConfig

2.1.4 擴充套件相關

    framework                framework.Framework
    extenders                []algorithm.SchedulerExtender

2.2 排程演算法登錄檔

Priority會複雜一點,這裡就不介紹了，其核心設計都是一樣的

2.2.1 工廠登錄檔

fitPredicateMap        = make(map[string]FitPredicateFactory)

2.2.2 登錄檔註冊

註冊主要分兩類：如果後續演算法不會使用當前Args裡面的資料，只需要使用metadata裡面的，就直接返回註冊演算法，下面的函式就是返回一個工廠方法，但是不會使用Args引數

func RegisterFitPredicate(name string, predicate predicates.FitPredicate) string {
    return RegisterFitPredicateFactory(name, func(PluginFactoryArgs) predicates.FitPredicate { return predicate })
}

最終註冊都是通過下面的工廠註冊函式實現，通過mutex和map實現

func RegisterFitPredicateFactory(name string, predicateFactory FitPredicateFactory) string {
    schedulerFactoryMutex.Lock()
    defer schedulerFactoryMutex.Unlock()
    validateAlgorithmNameOrDie(name)
    fitPredicateMap[name] = predicateFactory
    return name
}

2.2.3 生成預選演算法

通過外掛工廠引數影響和Factory構建具體的預選演算法，上面構建的工廠方法，下面則給定引數，通過工廠方法利用閉包的方式來進行真正演算法的生成

func getFitPredicateFunctions(names sets.String, args PluginFactoryArgs) (map[string]predicates.FitPredicate, error) {
    schedulerFactoryMutex.RLock()
    defer schedulerFactoryMutex.RUnlock()

    fitPredicates := map[string]predicates.FitPredicate{}
    for _, name := range names.List() {
        factory, ok := fitPredicateMap[name]
        if !ok {
            return nil, fmt.Errorf("invalid predicate name %q specified - no corresponding function found", name)
        }
        fitPredicates[name] = factory(args)
    }

    // k8s中預設包含一些強制性的策略，不允許使用者自己進行刪除，這裡是載入這些引數
    for name := range mandatoryFitPredicates {
        if factory, found := fitPredicateMap[name]; found {
            fitPredicates[name] = factory(args)
        }
    }

    return fitPredicates, nil
}

2.2.4 根據當前feature進行演算法刪除

當我們在系統演進的時候，也可以借鑑這種思想，來避免使用者使用那些當前或者未來版本中可能逐漸被放棄的設計

if utilfeature.DefaultFeatureGate.Enabled(features.TaintNodesByCondition) {
        // Remove "CheckNodeCondition", "CheckNodeMemoryPressure", "CheckNodePIDPressure"
        // and "CheckNodeDiskPressure" predicates
        factory.RemoveFitPredicate(predicates.CheckNodeConditionPred)
        factory.RemoveFitPredicate(predicates.CheckNodeMemoryPressurePred)
    }

2.3 predicateMetadataProducer

2.3.1 PredicateMetadata

// PredicateMetadata interface represents anything that can access a predicate metadata.
type PredicateMetadata interface {
    ShallowCopy() PredicateMetadata
    AddPod(addedPod *v1.Pod, nodeInfo *schedulernodeinfo.NodeInfo) error
    RemovePod(deletedPod *v1.Pod, node *v1.Node) error
}

2.3.2 宣告

predicateMetadataProducer PredicateMetadataProducerFactory

工廠函式

// PredicateMetadataProducerFactory produces PredicateMetadataProducer from the given args.
type PredicateMetadataProducerFactory func(PluginFactoryArgs) predicates.PredicateMetadataProducer

PredicateMetadataProducer通過上面的工廠函式建立而來，其接受當前需要排程的pod和snapshot裡面的node資訊，從而構建當前的PredicateMetadata


// PredicateMetadataProducer is a function that computes predicate metadata for a given pod.
type PredicateMetadataProducer func(pod *v1.Pod, nodeNameToInfo map[string]*schedulernodeinfo.NodeInfo) PredicateMetadata

2.3.2 註冊

// RegisterPredicateMetadataProducerFactory registers a PredicateMetadataProducerFactory.
func RegisterPredicateMetadataProducerFactory(factory PredicateMetadataProducerFactory) {
    schedulerFactoryMutex.Lock()
    defer schedulerFactoryMutex.Unlock()
    predicateMetadataProducer = factory
}

2.3.4 意義

PredicateMetadata其本質上就是當前系統中的元資料，其設計的主要目標是為了當前的排程流程中後續多個排程演算法中都可能需要計算的資料，進行統一的計算，比如節點的親和性、反親和、拓撲分佈等，都在此進行統一的控制，當前版本的實現時PredicateMetadataFactory,這裡不進行展開

2.4 Provider

2.4.1 AlgorithmProviderConfig

// AlgorithmProviderConfig is used to store the configuration of algorithm providers.
type AlgorithmProviderConfig struct {
    FitPredicateKeys     sets.String
    PriorityFunctionKeys sets.String
}

2.4.2 註冊中心

algorithmProviderMap   = make(map[string]AlgorithmProviderConfig)

2.4.3 註冊


func RegisterAlgorithmProvider(name string, predicateKeys, priorityKeys sets.String) string {
    schedulerFactoryMutex.Lock()
    defer schedulerFactoryMutex.Unlock()
    validateAlgorithmNameOrDie(name)
    algorithmProviderMap[name] = AlgorithmProviderConfig{
        FitPredicateKeys:     predicateKeys,
        PriorityFunctionKeys: priorityKeys,
    }
    return name
}

2.4.4 預設Provider註冊

func init() {
    // 註冊演算法DefaulrProvider 的演算法provider
    registerAlgorithmProvider(defaultPredicates(), defaultPriorities())
}

2.5 核心排程流程

核心排程流程，這裡面只介紹主線的流程，至於怎麼預選和優選則在下一篇文章進行更新，因為稍微有點複雜，而framework和extender則在後續介紹完這兩部分在進行介紹, 其中extender的呼叫則是在PrioritizeNodes進行優先順序算中進行呼叫

// Schedule tries to schedule the given pod to one of the nodes in the node list.
// If it succeeds, it will return the name of the node.
// If it fails, it will return a FitError error with reasons.
func (g *genericScheduler) Schedule(pod *v1.Pod, pluginContext *framework.PluginContext) (result ScheduleResult, err error) {
    // 省略非核心程式碼
    // 呼叫framework的RunPreFilterPlugins
    preFilterStatus := g.framework.RunPreFilterPlugins(pluginContext, pod)
    if !preFilterStatus.IsSuccess() {
        return result, preFilterStatus.AsError()
    }

    // 獲取當前的node數量
    numNodes := g.cache.NodeTree().NumNodes()
    if numNodes == 0 {
        return result, ErrNoNodesAvailable
    }

    // 更新snapshot
    if err := g.snapshot(); err != nil {
        return result, err
    }
    // 預選階段
    filteredNodes, failedPredicateMap, filteredNodesStatuses, err := g.findNodesThatFit(pluginContext, pod)
    if err != nil {
        return result, err
    }

    // 將預選結果呼叫framework的postfilter
    postfilterStatus := g.framework.RunPostFilterPlugins(pluginContext, pod, filteredNodes, filteredNodesStatuses)
    if !postfilterStatus.IsSuccess() {
        return result, postfilterStatus.AsError()
    }

    if len(filteredNodes) == 0 {
        return result, &FitError{
            Pod:                   pod,
            NumAllNodes:           numNodes,e
            FailedPredicates:      failedPredicateMap,
            FilteredNodesStatuses: filteredNodesStatuses,
        }
    }

    startPriorityEvalTime := time.Now()
    // 如果只有一個節點則直接返回
    if len(filteredNodes) == 1 {
        return ScheduleResult{
            SuggestedHost:  filteredNodes[0].Name,
            EvaluatedNodes: 1 + len(failedPredicateMap),
            FeasibleNodes:  1,
        }, nil
    }

    // 獲取所有的排程策略
    metaPrioritiesInterface := g.priorityMetaProducer(pod, g.nodeInfoSnapshot.NodeInfoMap)
    // 獲取所有node的優先順序,此處會將extenders進行傳入，實現擴充套件介面的呼叫
    priorityList, err := PrioritizeNodes(pod, g.nodeInfoSnapshot.NodeInfoMap, metaPrioritiesInterface, g.prioritizers, filteredNodes, g.extenders, g.framework, pluginContext)
    if err != nil {
        return result, err
    }
    // 從優先順序中選擇出合適的node
    host, err := g.selectHost(priorityList)
    trace.Step("Selecting host done")
    return ScheduleResult{
        SuggestedHost:  host,
        EvaluatedNodes: len(filteredNodes) + len(failedPredicateMap),
        FeasibleNodes:  len(filteredNodes),
    }, err
}

3. 設計總結

在排程演算法框架中大量使用了工廠方法來進行演算法、元資料等的構建,並通過封裝MetadataProducer來進行公共業務邏輯介面的封裝，通過PluginContext進行排程流程中上下文資料的傳遞，並且使用者可以通過定製Provider來進行具體排程演算法的選擇

本文只介紹了大的框架設計，諸如具體的演算法註冊和構建其大多都是在構建scheduler命令列引數處通過載入對應的包和init函式來實現，本文沒有介紹一些具體的細節連搶佔也沒有介紹，後續文章裡面會進行一一展開，感興趣的同學，歡迎一起學習交流

微訊號：baxiaoshi2020
關注公告號閱讀更多原始碼分析文章
更多文章關注 www.sreguide.com
本文由部落格一文多發平臺 OpenWrite 釋出

相關推薦

圖解kubernetes排程器ScheduleAlgorithm核心實現學習框架設計

ScheduleAlgorithm是一個介面負責為pod選擇一個合適的node節點,本節主要解析如何實現一個可擴充套件、可配置的通用演算法框架來實現通用排程,如何進行演算法的統一註冊和構建,如何進行metadata和排程流程上下文資料的傳遞 1. 設計思考 1.1 排程設計 1.1.1 排程與搶佔當接收

圖解kubernetes排程器SchedulingQueue核心原始碼實現

SchedulingQueue是kubernetes scheduler中負責進行等待排程pod儲存的對，Scheduler通過SchedulingQueue來獲取當前系統中等待排程的Pod，本文主要討論SchedulingQueue的設計與實現的各種實現, 瞭解探究其內部實現與底層原始碼,本系列程式碼基於k

圖解kubernetes排程器SchedulerCache核心原始碼實現

SchedulerCache是kubernetes scheduler中負責本地資料快取的核心資料結構, 其實現了Cache介面,負責儲存從apiserver獲取的資料，提供給Scheduler排程器獲取Node的資訊，然後由排程演算法的決策pod的最終node節點,其中Snapshot和節點打散演算法非常值

圖解kubernetes排程器預選設計實現學習

Scheduler中在進行node選舉的時候會首先進行一輪預選流程，即從當前叢集中選擇一批node節點，本文主要分析k8s在預選流程上一些優秀的篩選設計思想，歡迎大佬們指正 1. 基礎設計 1.1 預選場景預選顧名思義就是從當前叢集中的所有的node中，選擇出滿足當前pod資源和親和性等需求的node節點，

圖解kubernetes排程器搶佔流程與演算法設計

搶佔排程是分散式排程中一種常見的設計，其核心目標是當不能為高優先順序的任務分配資源的時候，會通過搶佔低優先順序的任務來進行高優先順序的排程，本文主要學習k8s的搶佔排程以及裡面的一些有趣的演算法 1. 搶佔排程設計 1.1 搶佔原理搶佔排程原理其實很簡單就是通過高優先順序的pod搶佔低優先順序的pod資源，

Kubernetes排程器簡介

1.Replication Controller 用來控制kubernetes叢集中pods副本數。常用模式 Rescheduling 保證副本數達到規定個數。 Scaling 彈性伸縮。 kubectl scale --replicas=3 replicationc

軟中斷排程器 c/c++實現（vs2008）

一、背景介紹嵌入式實時作業系統，如何實現實現無上下文及棧切換的高效業務處理，是一個難題。現在我們一般採用一種稱為軟中斷的執行緒機制。軟中斷具有與中斷類似的特性，支援優先順序及優先順序搶佔，處理過程不能掛起。與硬中斷通過硬體啟用不同，軟中斷需要通過主動呼叫軟中斷啟

容器時代CI/CD平臺中的Kubernetes排程器定製方法

本博文是我在2017**深圳Jenkins Meetup**演講的膠片，關於Jenkins+Kubernetes的內容和Kubernetes排程器的定製方法。另外，歡迎大家掃描後面的二維碼關注我們和加入

圖解kubernetes服務打散演算法的實現原始碼

在分散式排程中為了保證服務的高可用和容災需求，通常都會講服務在多個區域、機架、節點上平均分佈，從而避免單點故障引起的服務不可用，在k8s中自然也實現了該演算法即SelectorSpread, 本文就來學習下這個演算法的底層實現細節 1. 設計要點 1.1 zone與node zone即代表一個區域，node則

圖解kubernetes控制器StatefulSet核心實現原理

StatefulSet是k8s中有狀態應用管理的標準實現,今天就一起來了解下其背後設計的場景與原理,從而瞭解其適用範圍與場景 # 1. 基礎概念首先介紹有狀態應用裡面的需要考慮的一些基礎的事情，然後在下一章我們再去看statefulSet的關鍵實現 ## 1.1 有狀態與無狀態 ![image.png](

Spring AOP學習筆記03：AOP的核心實現之獲取增強器

　　上文講了spring是如何開啟AOP的，簡單點說就是將AnnotationAwareAspectJAutoProxyCreator這個類註冊到容器中，因為這個類最終實現了BeanPostProcessor介面，並且在其postProcessAfterInitialization()方法中完成了AOP代理物

機器學習：貝葉斯分類器（二）——高斯樸素貝葉斯分類器代碼實現

mod ces 數據大於等於即使平均值方差很多 mode 一高斯樸素貝葉斯分類器代碼實現網上搜索不調用sklearn實現的樸素貝葉斯分類器基本很少，即使有也是結合文本分類的多項式或伯努利類型，因此自己寫了一遍能直接封裝的高斯類型NB分類器，當然與真正的源碼相

MyBatis學習——第四篇（攔截器和攔截器分頁實現）

MyBatis架構體圖 1：mybatis核心物件從MyBatis程式碼實現的角度來看，MyBatis的主要的核心部件有以下幾個： SqlSession &n

Linux高效能網路：協程系列08-協程實現之排程器

目錄 Linux高效能網路：協程系列01-前言 Linux高效能網路：協程系列02-協程的起源 Linux高效能網路：協程系列03-協程的案例 Linux高效能網路：協程系列04-協程實現之工作原理 Linux高效能網路：協程系列05-協程實現之原語操作 Linux高效能網路：協程

springMVC + quartz實現定時器（任務排程器）

首先我們要知道任務排程器（定時器）有幾種，這邊我會寫三種第一種是基於JDK的本身的一個定時器（優點：簡單，缺點：滿足不了複雜的需求） package com.timer1; import java.util.Date; import java.util.TimerTask;

RT-Thread 讀後感6 ——實現排程器（排程器初始化，啟動排程器）

1. 排程器初始化排程器是作業系統的核心，主要功能是實現執行緒的切換，即從就緒列表中找到優先順序最高的執行緒，然後執行該執行緒。關於排程器的程式碼，RT-Thread在scheduler.c檔案中實現。排程器初始化：排程器在使用前必須初始化，具體程式碼如下： /* 初始化系統排程器

android中定時器的實現學習

資料來自於簡書沿路旅程如歌蛻變點這裡利用handler.postDelay()方法來實現定時器計時下面的程式碼實現了6s倒計時,計時後,自動停止計時並移除runnable. public class MainActivity extends AppCompat

Spark2原理分析-DAGScheduler(Stage排程器)的實現原理

概述本文介紹DAGScheduler的實現原理。通過文章《Spark2原理分析-DAGScheduler(Stage排程器)的基本概念》我們學習了DAGScheduler的基本概念，並瞭解了它的功能。這篇文章，介紹DAGScheduler的具體實現。為避免篇幅過長，本文先介紹

深入 Java Timer 定時任務排程器實現原理

使用 Java 來排程定時任務時，我們經常會使用 Timer 類搞定。Timer 簡單易用，其原始碼閱讀起來也非常清晰，本節我們來仔細分析一下 Timer 類，來看看 JDK 原始碼的編寫者是如何實現一個穩定可靠的簡單排程器。 Timer 使用 Timer 排程任務有一次性排程和迴圈排程，迴圈排程

深入 Java Timer 定時排程器實現原理

使用 Java 來排程定時任務時，我們經常會使用 Timer 類搞定。Timer 簡單易用，其原始碼閱讀起來也非常清晰，本節我們來仔細分析一下 Timer 類，來看看 JDK 原始碼的編寫者是如何實現一個穩定可靠的簡單排程器。 Timer 使用 Timer 排程任務有一次性排程和迴圈排程