Ceph轉角遇見k8s：記分散式系統界一對名角的浪漫牽手_Kubernetes中文社群

阿新 • • 發佈：2018-12-23

1、“佛說前世無數次的痛苦掙扎，換得今生的一次邂逅。

話說分散式系統界的名角ceph，志向遠大，他要做分散式儲存領域的linux，但接觸過ceph的愛好者在初次使用ceph時，都經歷過比較痛苦的部署過程。還好後來有了ceph-deploy工具，部署會簡單很多。但是由於ceph安裝包的依賴關係有點複雜，特別是在沒有匹配作業系統版本的ceph安裝包時，通過原始碼編譯並安裝也是更加頭痛的一件事情：

不僅需要依賴包，而且需要開發包；
編譯過程漫長，一個4核8GB的主機編譯需要將近兩個多小時；
佔用磁碟空間大，大約十幾個GB。

雖然ceph比較平易近人，但對於ceph叢集的運維也是一個折騰運維工程師的苦差事。Ceph元件中的程序異常掉線，需要及時將其拉起來。服務元件使用的資源如果不加限制，會互相影響。mon是整個叢集的關鍵元件，因此更需要保證其高可用。

2、當ceph遇上k8s，就有了我們下面要介紹的愛情故事了，快搬來小馬紮聽我慢慢道來。

在這裡先簡單介紹一下ceph及k8s兩個的性格特點：

Ceph號稱高可用的分散式儲存系統，通過多個MON節點（通常為3個）維護叢集的狀態及元資料資訊，而真正儲存資料的OSD節點通過向MON節點彙報狀態，並通過CRUSH演算法將資料副本佈局到相應OSD的所在磁碟上，完成資料的持久化儲存。為了保證每個資料副本的高可用，通常採用三副本或EC方式。而提供檔案服務的mds元件和提供物件儲存的rgw元件都不儲存實際資料，只是作為服務態程序存在。

K8s是Google開源的容器叢集管理系統，為容器化的應用提供資源排程、部署執行、服務發現、擴容縮容等整一套功能。系統分為管理節點和容器化節點兩種，通過管理節點將服務例項以pod為單位排程到容器化的計算節點上執行。K8s的管理理念很牛：像管理畜生一樣管理你的應用，還別說，伺服器資源的利用率顯著提升。

此處，默默無聞的幕後工作者docker要出來吼一下了。Docker出身高貴，是核心家族namespace和cgroup的後裔，他通過把應用所依賴的環境及軟體庫打包在映象中，讓應用在容器內自由執行，通過虛擬網路，和外界互聯。

Ceph想要和k8s牽手，需要有一個磨合的過程，要摒棄一些個性，和容器大家庭做好融合。

首先ceph的osd元件需要使用到節點上的磁碟，一個osd對應一個磁碟。因此osd的pod需要和響應的主機繫結。Mon只是提供叢集狀態維護，除了少量的集群系統資料，可以執行在任何節點上，但它必須有一個固定的IP地址提供給眾多OSD及客戶端連線，而k8s的service恰好解決了這樣一個問題。同樣mds和rgw也可以採用service對外提供服務地址和負載均衡。

而這些少量的狀態和配置資料可以通過k8s的PV儲存，這樣，服務元件就可以在任何節點上執行。

3、牽手細節

硬體及基礎軟體環境：多臺通過區域網互聯的主機，並且作為容器化的主機有相應的磁碟或分割槽，linux作業系統核心（3.10以上）支援docker。

首先，需要在基礎環境上部署一套完整的k8s叢集，然後需要準備一個ceph的docker映象，本文中使用docker.io/ceph/daemon:tag-build-master-jewel-centos-7。

1. 準備工作

先建立用於儲存ceph叢集狀態資訊的持久化卷（PV）以及PVC，本文用於PV的分散式儲存採用NFS。

pv.yaml

apiVersion: v1
kind: PersistentVolume
metadata:
name: ceph-conf
spec:
capacity:
storage: 10Mi
accessModes:
– ReadWriteMany
nfs:
path: /ceph4k8s/conf
server: 192.168.6.21
—
apiVersion: v1
kind: PersistentVolume
metadata:
name: ceph-data
spec:
capacity:
storage: 10Gi
accessModes:
– ReadWriteMany
nfs:
path: /ceph4k8s/data
server: 192.168.6.21

Pvc.yaml

kind: PersistentVolumeClaim
apiVersion: v1
metadata:
name: ceph-conf
spec:
accessModes:
– ReadWriteMany
resources:
requests:
storage: 10Mi

kind: PersistentVolumeClaim
apiVersion: v1
metadata:
name: ceph-data
spec:
accessModes:
– ReadWriteMany
resources:
requests:
storage: 10Gi

2. 需要通過容器POD將ceph的MON元件部署起來，步驟如下：

首先建立RC和service，如mon.yaml檔案所示：

apiVersion: v1
kind: ReplicationController
metadata:
app: ceph-mon
spec:
replicas: 1
selector:
app: ceph-mon
template:
metadata:
labels:
app: ceph-mon
spec:
hostname: mon
containers:
– name: ceph-mon
image: docker.io/ceph/daemon:4k8s
imagePullPolicy: Never
ports:
– containerPort: 6789
protocol: TCP
env:
– name: MON_IP
value: ceph-mon
– name: CEPH_PUBLIC_NETWORK
value: 18.18.0.0/16
– name: CEPH_CLUSTER_NETWORK
value: 192.168.0.0/16
args:
– mon
volumeMounts:
– mountPath: /etc/ceph
name: ceph-conf
– mountPath: /var/lib/ceph
name: ceph-data
volumes:
– name: ceph-conf
persistentVolumeClaim:
claimName: ceph-conf
– name: ceph-data
persistentVolumeClaim:
claimName: ceph-data

—
kind: Service
apiVersion: v1
metadata:
labels:
app: ceph-mon
name: ceph-mon
namespace: default
spec:
type: NodePort
clusterIP: 11.11.1.1
ports:
– port: 6789
targetPort: 6789
selector:
app: ceph-mon

執行kubectl create -f mon.yaml

待POD正常啟動後，可以發現nfs中的PV目錄被寫入了叢集的系統資料。

Kubectl exec ceph-mon-xxxxx — ceph -s

顯示如下資訊：

cluster fa6fba4c-40f6-4c51-8a5d-fd0be12dc421
health HEALTH_ERR
64 pgs are stuck inactive for more than 300 seconds
64 pgs stuck inactive
no osds
monmap e1: 1 mons at {mon=18.18.67.2:6789/0}
election epoch 3, quorum 0 mon
osdmap e1: 0 osds: 0 up, 0 in
flags sortbitwise
pgmap v2: 64 pgs, 1 pools, 0 bytes data, 0 objects
0 kB used, 0 kB / 0 kB avail
64 creating

3. 建立OSD的POD，網路採用host方式

採用這種網路方式，一方面是通訊效率高；另一方面是能夠利用主機名和裝置（OSD）形成所屬關係，便於crush map中區分不同host上的osd。由於OSD與MON進行網路連線時，通訊元件中會對比驗證傳送的源IP地址與目標IP地址，如果不一致將出錯。而我們通過將MON元件服務化後，對外提供固定的虛擬IP（CLUSTER-IP），而自己內部是採用Pod-IP，因此在此處會因驗證不通過而無法建立連線，因此需要將原始碼中src/msg/async/AsyncConnection.cc:1158和vi src/msg/simple/Pipe.cc:981附近的IP驗證程式碼註釋掉，然後重新編譯，替換映象中的可執行檔案ceph-osd、ceph-mds、radosgw

建立osd-0.yaml檔案

apiVersion: v1
kind: ReplicationController
metadata:
name: ceph-osd
spec:
replicas: 1
selector:
name: ceph-osd
template:
metadata:
labels:
name: ceph-osd
spec:
nodeName: 192.168.0.21
containers:
– name: ceph-osd
image: docker.io/ceph/daemon:4k8s
imagePullPolicy: Never
securityContext:
privileged: true
env:
– name: OSD_DEVICE
value: /dev/sdb
– name: OSD_TYPE
value: disk
args:
– osd
volumeMounts:
– mountPath: /etc/ceph
name: ceph-conf
– mountPath: /var/lib/ceph
name: ceph-data
– mountPath: /dev
name: dev
hostNetwork: true
volumes:
– name: ceph-conf
persistentVolumeClaim:
claimName: ceph-conf
– name: ceph-data
persistentVolumeClaim:
claimName: ceph-data
– name: dev
hostPath:
path: “/dev”

其中nodeName和環境變數中OSD_DEVICE要根據實際部署的多個OSD來設定。

執行kubectl create -f osd-*.yaml之後，再到mon容器中執行ceph -s，可以發現osd都加進叢集了。

4. 咱倆真的合適嗎？

真心大考驗之一

刪除mon的Pod模擬程序異常退出的故障，看叢集是否仍然正常。

Kubectl delete pod ceph-mon-xxxxx

發現新的pod又被建立了，同時檢視叢集狀態，仍然正常。

真心大考驗之二

將k8s叢集中執行mon元件Pod的node主機宕機，發現k8s在新的node上建立了新的mon Pod，ceph叢集狀態依然正常。

經過以上考驗之後，基本可以確定ceph與k8s的結合是合適的。下面接著把mds和rgw元件部署完成，使得ceph叢集能夠對外提供檔案介面、塊介面和物件介面。

Mds.yaml

apiVersion: v1
kind: ReplicationController
metadata:
name: ceph-mds
spec:
replicas: 1
selector:
name: ceph-mds
template:
metadata:
labels:
name: ceph-mds
spec:
containers:
– name: ceph-mon
image: docker.io/ceph/daemon:4k8s
imagePullPolicy: Never
env:
– name: CEPHFS_CREATE
value: “1”
args:
– mds
volumeMounts:
– mountPath: /etc/ceph
name: ceph-conf
– mountPath: /var/lib/ceph
name: ceph-data
volumes:
– name: ceph-conf
persistentVolumeClaim:
claimName: ceph-conf
– name: ceph-data
persistentVolumeClaim:
claimName: ceph-data

Rgw.yaml

apiVersion: v1
kind: ReplicationController
metadata:
name: ceph-rgw
spec:
replicas: 1
selector:
name: ceph-rgw
template:
metadata:
labels:
name: ceph-rgw
spec:
containers:
– name: ceph-rgw
image: docker.io/ceph/daemon:4k8s
imagePullPolicy: Never
args:
– rgw
volumeMounts:
– mountPath: /etc/ceph
name: ceph-conf
– mountPath: /var/lib/ceph
name: ceph-data
volumes:
– name: ceph-conf
persistentVolumeClaim:
claimName: ceph-conf
– name: ceph-data
persistentVolumeClaim:
claimName: ceph-data
—
kind: Service
apiVersion: v1
metadata:
labels:
app: ceph-rgw
name: ceph-rgw
namespace: default
spec:
type: NodePort
clusterIP: 11.11.1.2
ports:
– port: 80
targetPort: 80
selector:
app: ceph-rgw

4、小結

讓我們祝福這對新人能夠和諧相處，幸福美滿！如果出了問題，一定要原廠保修，不要自己修哦！

Ceph轉角遇見k8s：記分散式系統界一對名角的浪漫牽手_Kubernetes中文社群

1、“佛說前世無數次的痛苦掙扎，換得今生的一次邂逅。

2、當ceph遇上k8s，就有了我們下面要介紹的愛情故事了，快搬來小馬紮聽我慢慢道來。

3、牽手細節

1. 準備工作

2. 需要通過容器POD將ceph的MON元件部署起來，步驟如下：

3. 建立OSD的POD，網路採用host方式

4. 咱倆真的合適嗎？

真心大考驗之一

真心大考驗之二

4、小結

Ceph轉角遇見k8s：記分散式系統界一對名角的浪漫牽手_Kubernetes中文社群

中國移動一級業務支撐系統多Kubernetes叢集PaaS平臺實踐_Kubernetes中文社群

實踐出真知：博雲微服務經驗之避坑指南_Kubernetes中文社群

Kubernetes1.7新特性：支援繞過Docker，直接通過Containerd管理容器_Kubernetes中文社群

分散式學習最佳實踐：從分散式系統的特徵開始（附思維導圖）

對話王璞：談分散式系統在企業落地的挑戰

轉：大型分散式系統中的快取架構

Building Microservice NO.1 深圳：Cloud Native架構下的K8S和微服務實踐_Kubernetes中文社群

數人云架構師：微服務體系中的K8S&Mesos排程與服務發現_Kubernetes中文社群

K8S 最佳實踐：正常終止_Kubernetes中文社群

RKE快速上手指南：開源的輕量級K8S安裝程式_Kubernetes中文社群

Kubernetes（k8s）中文文件管理應用：在生產環境中使用Pods和容器_Kubernetes中文社群

Kubernetes（k8s）中文文件管理應用：部署持續執行的應用_Kubernetes中文社群

Kubernetes（k8s）中文文件管理應用：連線應用_Kubernetes中文社群

Kubernetes（k8s）中文文件 Kubernetes概述_Kubernetes中文社群

Kubernetes（k8s）中文文件在Kubernetes上執行你的第一個容器_Kubernetes中文社群

Hacktoberfest 2018：歡迎各種花式貢獻Jenkins 專案，眾人拾柴火焰高_Kubernetes中文社群

CNCF調查：自2018年3月以來，亞洲雲使用率增長135%_Kubernetes中文社群

【內推】Docker/K8S相關，阿里巴巴、Rancher、TalkingData、華雲資料等_Kubernetes中文社群

基於Kubernetes的瓜子云的任務排程系統_Kubernetes中文社群

Ceph轉角遇見k8s：記分散式系統界一對名角的浪漫牽手_Kubernetes中文社群

1、“佛說前世無數次的痛苦掙扎，換得今生的一次邂逅。

2、當ceph遇上k8s，就有了我們下面要介紹的愛情故事了，快搬來小馬紮聽我慢慢道來。

3、牽手細節

1. 準備工作

2. 需要通過容器POD將ceph的MON元件部署起來，步驟如下：

3. 建立OSD的POD，網路採用host方式

4. 咱倆真的合適嗎？

真心大考驗之一

真心大考驗之二

4、小結

相關推薦