Kubernetes叢集中，Node異常時Pod狀態分析

阿新 • • 發佈：2019-03-01

摘要：Kubernetes叢集中Node NotReady是經常遇到的現象，我們需要了解各種Workload Type對應的Pod此時的行為。文中只給出現象總結，並沒有寫出對應的邏輯分析，因為這主要是Node Controller的行為，我對Node Controller寫過四篇系列部落格，大家可以參考。

Kubelet程序異常，Pod狀態變化

一個節點上執行著pod前提下，這個時候把kubelet程序停掉。裡面的pod會被幹掉嗎？會在其他節點recreate嗎？

結論：

（1）Node狀態變為NotReady （2）Pod 5分鐘之內狀態無變化，5分鐘之後的狀態變化：Daemonset的Pod狀態變為Nodelost，Deployment、Statefulset和Static Pod的狀態先變為NodeLost，然後馬上變為Unknown。Deployment的pod會recreate，但是Deployment如果是node selector停掉kubelet的node，則recreate的pod會一直處於Pending的狀態。Static Pod和Statefulset的Pod會一直處於Unknown狀態。

Kubelet恢復，Pod行為

如果kubelet 10分鐘後又起來了，node和pod會怎樣？

結論：

（1）Node狀態變為Ready。（2）Daemonset的pod不會recreate，舊pod狀態直接變為Running。（3）Deployment的則是將kubelet程序停止的Node刪除（原因可能是因為舊Pod狀態在叢集中有變化，但是Pod狀態在變化時發現叢集中Deployment的Pod例項數已經夠了，所以對舊Pod做了刪除處理）（4）Statefulset的Pod會重新recreate。（5）Staic Pod沒有重啟，但是Pod的執行時間會在kubelet起來的時候置為0。

在kubelet停止後，statefulset的pod會變成nodelost，接著就變成unknown，但是不會重啟，然後等kubelet起來後，statefulset的pod才會recreate。

還有一個就是Static Pod在kubelet重啟以後應該沒有重啟，但是叢集中查詢Static Pod的狀態時，Static Pod的執行時間變了

StatefulSet Pod為何在Node異常時沒有Recreate

Node down後，StatefulSet Pods並沒有重建，為什麼？

我們在node controller中發現，除了daemonset pods外，都會呼叫delete pod api刪除pod。

但並不是呼叫了delete pod api就會從apiserver/etcd中刪除pod object，僅僅是設定pod 的deletionTimestamp，標記該pod要被刪除。真正刪除Pod的行為是kubelet，kubelet grace terminate該pod後去真正刪除pod object。這個時候statefulset controller 發現某個replica缺失就會去recreate這個pod。

但此時由於kubelet掛了，無法與master通訊，導致Pod Object一直無法從etcd中刪除。如果能成功刪除Pod Object，就可以在其他Node重建Pod。

另外，要注意，statefulset只會針對isFailed Pod，（但現在Pods是Unkown狀態）才會去delete Pod。

// delete and recreate failed pods
		if isFailed(replicas[I]) {
			ssc.recorder.Eventf(set, v1.EventTypeWarning, "RecreatingFailedPod",
				"StatefulSetPlus %s/%s is recreating failed Pod %s",
				set.Namespace,
				set.Name,
				replicas[I].Name)
			if err := ssc.podControl.DeleteStatefulPlusPod(set, replicas[I]); err != nil {
				return &status, err
			}
			if getPodRevision(replicas[I]) == currentRevision.Name {
				status.CurrentReplicas—
			}
			if getPodRevision(replicas[I]) == updateRevision.Name {
				status.UpdatedReplicas—
			}
			status.Replicas—
			replicas[I] = newVersionedStatefulSetPlusPod(
				currentSet,
				updateSet,
				currentRevision.Name,
				updateRevision.Name,
				i)
		}

優化StatefulSet Pod的行為

所以針對node異常的情況，有狀態應用(Non-Quorum)的保障，應該補充以下行為：

監測node的網路、kubelet程序、作業系統等是否異常，區別對待。
比如，如果是網路異常，Pod無法正常提供服務，那麼需要kubectl delete pod -f —grace-period=0進行強制從etcd中刪除該pod。
強制刪除後，statefulset controller就會自動觸發在其他Node上recreate pod。

亦或者，更粗暴的方法，就是放棄GracePeriodSeconds，StatefulSet Pod GracePeriodSeconds為nil或者0，則就會直接從etcd中刪除該object。

// BeforeDelete tests whether the object can be gracefully deleted.
// If graceful is set, the object should be gracefully deleted.  If gracefulPending
// is set, the object has already been gracefully deleted (and the provided grace
// period is longer than the time to deletion). An error is returned if the
// condition cannot be checked or the gracePeriodSeconds is invalid. The options
// argument may be updated with default values if graceful is true. Second place
// where we set deletionTimestamp is pkg/registry/generic/registry/store.go.
// This function is responsible for setting deletionTimestamp during gracefulDeletion,
// other one for cascading deletions.
func BeforeDelete(strategy RESTDeleteStrategy, ctx context.Context, obj runtime.Object, options *metav1.DeleteOptions) (graceful, gracefulPending bool, err error) {
	objectMeta, gvk, kerr := objectMetaAndKind(strategy, obj)
	if kerr != nil {
		return false, false, kerr
	}
	if errs := validation.ValidateDeleteOptions(options); len(errs) > 0 {
		return false, false, errors.NewInvalid(schema.GroupKind{Group: metav1.GroupName, Kind: "DeleteOptions"}, "", errs)
	}
	// Checking the Preconditions here to fail early. They'll be enforced later on when we actually do the deletion, too.
	if options.Preconditions != nil && options.Preconditions.UID != nil && *options.Preconditions.UID != objectMeta.GetUID() {
		return false, false, errors.NewConflict(schema.GroupResource{Group: gvk.Group, Resource: gvk.Kind}, objectMeta.GetName(), fmt.Errorf("the UID in the precondition (%s) does not match the UID in record (%s). The object might have been deleted and then recreated", *options.Preconditions.UID, objectMeta.GetUID()))
	}
	gracefulStrategy, ok := strategy.(RESTGracefulDeleteStrategy)
	if !ok {
		// If we're not deleting gracefully there's no point in updating Generation, as we won't update
		// the obcject before deleting it.
		return false, false, nil
	}
	// if the object is already being deleted, no need to update generation.
	if objectMeta.GetDeletionTimestamp() != nil {
		// if we are already being deleted, we may only shorten the deletion grace period
		// this means the object was gracefully deleted previously but deletionGracePeriodSeconds was not set,
		// so we force deletion immediately
		// IMPORTANT:
		// The deletion operation happens in two phases.
		// 1. Update to set DeletionGracePeriodSeconds and DeletionTimestamp
		// 2. Delete the object from storage.
		// If the update succeeds, but the delete fails (network error, internal storage error, etc.),
		// a resource was previously left in a state that was non-recoverable.  We
		// check if the existing stored resource has a grace period as 0 and if so
		// attempt to delete immediately in order to recover from this scenario.
		if objectMeta.GetDeletionGracePeriodSeconds() == nil || *objectMeta.GetDeletionGracePeriodSeconds() == 0 {
			return false, false, nil
		}
		...

 
 
              
           
              
              
            
            相關推薦
			   
            
            
            
 

    

    
    Kubernetes叢集中，Node異常時Pod狀態分析
      
                                                                
                                                
摘要：Kubernetes叢集中Node NotReady是經常遇到的現象，我們 

  
 

    

    
    在k8s叢集中，利用prometheus的jmx_exporter進行tomcat的JVM效能監控，並用grafana作前端展示
      查找了很多文件，沒有完全達到我要求的， 
於是，作了一定的調整，成現在這樣。 
操作步驟如下： 
一，準備好兩個檔案。 
jmx_prometheus_javaagent-0.3.1.jar 
jmx_exporter.yml 
jmx_exporter.yml作最簡單配置如下： 
 
 ---
rules 

  
 

    

    
    Spark：在Spark叢集中，叢集的節點個數、RDD分割槽個數、cpu核心個數三者與並行度的關係？？
      
                梳理一下Spark中關於併發度涉及的幾個概念File，Block，Split，Task，Partition，RDD以及節點數、Executor數、core數目的關係。




輸入可能以多個檔案的形式儲存在HDFS上，每個File都包含了很多塊，稱為Block。
當Spark 

  
 

    

    
    hadoop-yarn叢集中，通過shell指令碼自動化提交spark任務
      Set()
18/02/11 12:07:32 INFO yarn.Client: Submitting application application_1518316627470_0003 to ResourceManager
18/02/11 12:07:32 INFO impl.YarnClientIm 

  
 

    

    
    使用Jenkins進行持續構建與釋出應用到Kubernetes叢集中
      
								
								            
							
							
							本文已歸檔到kubernetes-handbook中的【最佳實踐—使用Jenkins進行持續構建與釋出】章節中，一切內容以kubernetes-handbook中穩準。

我們基於Jenkins的CI/ 

  
 

    

    
    新增calico到現有的kubernetes叢集中
      
                
譯自：http://docs.projectcalico.org/v1.5/getting-started/kubernetes/installation/
要求：
1.已存在的k8s叢集版本大於v1.1，想要使用NetworkPolicy，需要大於v1.3.0
2.可以被 

  
 

    

    
    攜程 Apollo 配置中心 | 學習筆記（六） |  詳細介紹攜程Apollo配置中心部署至Kubernetes叢集中
      
                專欄目錄：歡迎關注個人公眾號：  Coder程式設計歡迎關注個人網站：www.52melrin.com以上為之前寫的攜程Apollo配置中心相關文章，有需要，請自行查閱接下來將介紹攜程Apollo配置中心部署至Kubernetes叢集中注意：這裡需要有一定的Kubernete 

  
 

    

    
    初試 Kubernetes 叢集中 Spinnaker 平臺之叢集管理
      
							
							
							目錄






1、Spinnaker 叢集管理介紹


  Spinnaker 是 Netflix 的開源專案，是一個持續交付平臺，它提供在多種平臺上實現開箱即用的叢集管理和部署功能的平臺。我們可以通過其強大的叢集管理特性，來檢視和管理叢集中的資源。叢集管理 

  
 

    

    
    深入學習Kafka：叢集中Controller和Broker之間通訊機制分析
      
							
							
							

Kafka叢集中，首先會選舉出一個broker作為controller，然後該controller負責跟其他broker進行協調topic建立，partition主副本選舉，topic刪除等事務。 
下面我們來分析controller和其他broker的通訊 

  
 

    

    
    kubernetes之pod狀態分析
      
							
							
							k8s pod 狀態分析

pod從建立到最後的建立成功會分別處於不同的階段，在原始碼中用PodPhase來表示不同的階段：



PodPending PodPhase = "Pending"
PodRunning PodPhase = "Running"
P 

  
 

    

    
    kubernetes建立yaml，pod服務一直處於 ContainerCreating狀態
       
 
 
 #   wget http://mirror.centos.org/centos/7/os/x86_64/Packages/python-rhsm-certificates-1.19.10-1.el7_4.x86_64.rpm
 # rpm2cpio python- 

  
 

    

    
    Kubernetes中，通過Service訪問Pod快速入門
      一.背景 
理想狀態下，我們可以認為Kubernetes Pod是健壯的。但是，理想與現實的差距往往是非常大的。很多情況下，Pod中的容器可能會因為發生故障而死掉。Deployment等Controller會通過動態建立和銷燬Pod來保證應用整體的健壯性。眾所周知，每個pod都擁有自己的IP地址，當新的Con 

  
 

    

    
    如何使程式在eclipse上Run As，在叢集中Run
       
 
 一、First Step 
 將配置檔案拿出來包括(core-site.xml、hdfs-site.xml、mapred-site.xml、yarn-site.xml) 
 注意：修改配置檔案！把主機名改成對應的埠號（或者在window下設定hosts配置主機名和ip的對映） 
 拿出來之後放到你所 

  
 

    

    
    WebView載入失敗或網路異常時，替換WebView的錯誤介面；
       
 
 WebView在載入失敗時會顯示一個失敗原因的介面，各個手機顯示的介面還都不一樣，部分手機還會把Url顯示出來；我們要做的就是統一載入失敗的介面； 
 大概思路：在WebView這個控制元件上面再覆蓋一個View，監聽WebView載入失敗時把這個View顯示出來，這樣使用者就看不到原來的WebVi 

  
 

    

    
    使用traefik作為ingress controller透出叢集中的https後端（如kubernetes dashboard）_Kubernetes中文社群
      
						文章楔子
對於k8s叢集中的http/https服務，一種常見的設計是叢集內部走http協議，然後在ingress controller處統一管理TLS證書，並負責接受外部的https請求，以及將內部的http響應統一轉換為https發回客戶端，這樣既能降低叢集內部通訊的複雜度，又能保證叢集服 

  
 

    

    
    RHCS叢集中nginx下的負載均衡，及高可用
      
							
							
							一 RHCS叢集管理介紹

叢集管理器CMAN
Cluster Manager，簡稱CMAN，是一個分散式叢集管理工具，它執行在叢集的各個節點上，為RHCS提供叢集管理任務。CMAN用於管理叢集成員、傳遞節點間心跳資訊。它通過監控每個節點的執行狀態來了解節點成員 

  
 

    

    
    CDH 5.3.9(parcels)叢集中hive0.13.0升級到hive-1.2.1步驟全，升級hive元資料庫，資料不丟失
      
                

2.將安裝包傳到叢集所有節點上

3.所有節點root使用者下 

cd /opt/cloudera/parcels/CDH/lib/hive
mkdir lib121




5.所有節點將解壓出來hive/lib下所有檔案拷貝到lib121

6.Coudera 介面 

  
 

    

    
    分散式Redis中叢集中（cluster_state:fail），什麼時候整個叢集不可用了
      
								
								            
						
                
 a:如果叢集任意master掛掉,且當前master沒有slave.叢集進入fail狀態,也可以理解成叢集的slot對映[0-16383]不完成時進入fail狀態.
 ps : redis-3.0. 

  
 

    

    
    在啟動HDFS時，針對叢集中namenode無法識別datanode的問題的解決方法
      
							
							
							最近由於重灌了系統，需要對之前搭建的叢集要做些改動。在對每個虛擬機器的網路進行正確的配置之後，重新執行hadoop/sbin/start-dfs.sh命令來啟動HDFS，然而namenode卻無法識別datanode。 
後來通過對之前學過的知識進行回顧和梳理髮 

  
 

    

    
    Spring中丟擲異常時，既要要返回錯誤資訊，還要做事務回滾
      
                

情況一：如果沒有在程式中手動捕獲異常，如下程式碼事務會回滾


Java程式碼  


@Transactional(rollbackFor = { Exception.class })    
public void test() throws Exception {