1. 程式人生 > 實用技巧 >K8S核心網路外掛-Flannel的部署04

K8S核心網路外掛-Flannel的部署04

K8S核心網路外掛-Flannel的部署04

k8s雖然設計了網路模型,然後將實現方式交給了CNI網路外掛,而CNI網路外掛的主要目的,就是實現POD資源能夠跨宿主機進行通訊

常見的網路外掛有flannel,calico,canal,但是最簡單的flannel已經完全滿足我們的要求,故不在考慮其他網路外掛

網路外掛Flannel介紹:https://www.kubernetes.org.cn/3682.html

1 flannel功能概述

1.1 flannel運轉流程

  1. 首先
    flannel利用Kubernetes API或者etcd用於儲存整個叢集的網路配置,其中最主要的內容為設定叢集的網路地址空間。
    例如,設定整個叢集內所有容器的IP都取自網段“10.1.0.0/16”。
  2. 接著
    flannel在每個主機中執行flanneld作為agent,它會為所在主機從叢集的網路地址空間中,獲取一個小的網段subnet,本主機內所有容器的IP地址都將從中分配。
    例如,設定本主機內所有容器的IP地址網段“10.1.2.0/24”。
  3. 然後
    flanneld再將本主機獲取的subnet以及用於主機間通訊的Public IP,同樣通過kubernetes API或者etcd儲存起來。
  4. 最後
    flannel利用各種backend mechanism,例如udp,vxlan等等,跨主機轉發容器間的網路流量,完成容器間的跨主機通訊。

1.2 flannel

的網路模型

1.2.1 flannel支援3種網路模型

  1. host-gw閘道器模型
  1. {"Network": "xxx", "Backend": {"Type": "host-gw"}}

主要用於宿主機在同網段的情況下POD間的通訊,即不跨網段通訊.
此時flannel的功能很簡單,就是在每個宿主機上建立了一條通網其他宿主機的閘道器路由
完全沒有效能損耗,效率極高

  1. vxlan隧道模型
  1. {"Network": "xxx", "Backend": {"Type": "vxlan"}}

主要用於宿主機不在同網段的情況下POD間通訊,即跨網段通訊.
此時flannel會在宿主機上建立一個flannel.1的虛擬網絡卡,用於和其他宿主機間建立VXLAN隧道
跨宿主機通訊時,需要經由flannel.1裝置封包、解包,因此效率不高

  1. 混合模型
  1. {"Network": "xxx", "Backend": {"Type": "vxlan","Directrouting": true}}

在既有同網段宿主機,又有跨網段宿主機的情況下,選擇混合模式
flannel會根據通訊雙方的網段情況,自動選擇是走閘道器路由通訊還是通過VXLAN隧道通訊

1.2.2 實際工作中的模型選擇

很多人不推薦部署K8S的使用的flannel做網路外掛,不推薦的原因是是flannel效能不高,然而

  1. flannel效能不高是指它的VXLAN隧道模型,而不是gw模型
  2. 規劃K8S叢集的時候,應規劃多個K8S叢集來管理不同的業務
  3. 同一個K8S叢集的宿主機,就應該規劃到同一個網段
  4. 既然是同一個網段的宿主機通訊,使用的就應該是gw模型
  5. gw模型只是建立了閘道器路由,通訊效率極高
  6. 因此,建議工作中使用flannel,且用gw模型

2. 部署flannel外掛

2.1 etcd中寫入網路資訊

以下操作在任意etcd節點中執行都可以

/usr/local/etcd/etcdctl set /coreos.com/network/config '{"Network": "172.7.0.0/16", "Backend": {"Type": "host-gw"}}'
# 檢視結果
[root@server02 ~]# /usr/local/etcd/etcdctl get /coreos.com/network/config

{"Network": "172.7.0.0/16", "Backend": {"Type": "host-gw"}}

2.2 部署準備

2.2.1 下載軟體

wget https://github.com/coreos/flannel/releases/download/v0.11.0/flannel-v0.11.0-linux-amd64.tar.gz
mkdir /usr/local/flannel-v0.11.0
tar xf flannel-v0.11.0-linux-amd64.tar.gz -C /usr/local/flannel-v0.11.0/
ln -s /usr/local/flannel-v0.11.0/ /usr/local/flannel

2.2.2 拷貝證書

因為要和apiserver通訊,所以要配置client證書,當然ca公鑰自不必說

cd /usr/local/flannel
mkdir cert
scp 10.11.0.210:/opt/certs/ca.pem         cert/ 
scp 10.11.0.210:/opt/certs/client.pem     cert/ 
scp 10.11.0.210:/opt/certs/client-key.pem cert/ 

2.2.3 配置子網資訊

# vim /usr/local/flannel/subnet.env

FLANNEL_NETWORK=172.7.0.0/16
FLANNEL_SUBNET=172.7.207.1/24
FLANNEL_MTU=1500
FLANNEL_IPMASQ=false

注意:subnet子網網段資訊,每個宿主機都要修改

2.3 啟動flannel服務

2.3.1 建立flannel啟動指令碼

# vim /usr/local/flannel/flanneld.sh

#!/bin/sh
./flanneld \
  --public-ip=10.11.0.207 \
  --etcd-endpoints=https://10.11.0.207:2379,https://10.11.0.208:2379,https://10.11.0.209:2379 \
  --etcd-keyfile=./cert/client-key.pem \
  --etcd-certfile=./cert/client.pem \
  --etcd-cafile=./cert/ca.pem \
  --iface=eth0 \
  --subnet-file=./subnet.env \
  --healthz-port=2401

# 授權

chmod u+x /usr/local/flannel/flanneld.sh

注意:
public-ip為節點IP,注意按需修改
iface為網絡卡,若本機網絡卡不是eth0,注意修改

2.3.2 建立supervisor啟動指令碼

# vim etc/supervisord.d/flannel.ini

[program:flanneld]
command=/bin/bash /usr/local/flannel/flanneld.sh
numprocs=1
directory=/usr/local/flannel
autostart=true
autorestart=true
startsecs=30
startretries=3
exitcodes=0,2
stopsignal=QUIT
stopwaitsecs=10
user=root
redirect_stderr=true
stdout_logfile=/data/logs/flanneld/flanneld.stdout.log
stdout_logfile_maxbytes=64MB
stdout_logfile_backups=4
stdout_capture_maxbytes=1MB
;子程序還有子程序,需要新增這個引數,避免產生孤兒程序
killasgroup=true
stopasgroup=true

supervisor的各項配置不再備註,有需要的看K8S二進位制安裝中的備註

2.3.3 啟動flannel服務並驗證

啟動服務

mkdir -p /data/logs/flanneld

supervisorctl update

supervisorctl status

將配置好的其中一臺flannel拷貝到另外一個節點,修改配置並啟動即可

驗證路由

# route -n|egrep -i '172.7|des'

驗證通訊結果

架構原理:

之所以能夠通訊,是因為flannel添加了靜態路由

實驗:

將flannel的網路模型變更為vxlan

# /usr/local/etcd/etcdctl rm /coreos.com/network/config
# /usr/local/etcd/etcdctl get /coreos.com/network/config
Error:  100: Key not found (/coreos.com/network/config) [12]
# /usr/local/etcd/etcdctl set /coreos.com/network/config '{"Network": "172.7.0.0/16", "Backend": {"Type": "VxLAN"}}'
# /usr/local/etcd/etcdctl get /coreos.com/network/config

重啟flannel程序

# supervisorctl restart flanneld:*

實際在操作的過程中發現在設定成vxlan以後,再次重新調整回來後網路不通了,路由什麼的配置也都在,發現 flanneld1:1 這個網絡卡一直存在,於是重啟了兩臺kubectl主機,然後發現etcd不通,於是 iptables -F,重啟docker,再次設定 host-gw ,重啟etcd,flanneld,問題解決

3 優化iptables規則

3.1 前因後果

3.1.1 優化原因說明

我們使用的是gw網路模型,而這個網路模型只是建立了一條到其他宿主機下POD網路的路由資訊.
因而我們可以猜想:

  1. 從外網訪問到B宿主機中的POD,源IP應該是外網IP
  2. 從A宿主機訪問B宿主機中的POD,源IP應該是A宿主機的IP
  3. 從A的POD-A01中,訪問B中的POD,源IP應該是POD-A01的容器IP
    此情形可以想象是一個路由器下的2個不同網段的交換機下的裝置通過路由器(gw)通訊

然後遺憾的是:

  • 前兩條毫無疑問成立
  • 第3條理應成立,但實際不成立

不成立的原因是:

  1. Docker容器的跨網路隔離與通訊,藉助了iptables的機制
  2. 因此雖然K8S我們使用了ipvs排程,但是宿主機上還是有iptalbes規則
  3. 而docker預設生成的iptables規則為:
    若資料出網前,先判斷出網裝置是不是本機docker0裝置(容器網路)
    如果不是的話,則進行SNAT轉換後再出網,具體規則如下
  4. # iptables-save |grep -i postrouting|grep docker0

-A POSTROUTING -s 172.7.207.0/24 ! -o docker0 -j MASQUERADE

由於gw模式產生的資料,是從eth0流出,因而不在此規則過濾範圍內

  1. 就導致此跨宿主機之間的POD通訊,使用了該條SNAT規則

解決辦法是:

  • 修改此IPTABLES規則,增加過濾目標:過濾目的地是宿主機網段的流量

3.1.2 問題復現

  1. 在 0.207 宿主機中,訪問172.7.208.2

curl 172.7.208.2

    1. 在 0.207 宿主中和進入容器中分別訪問172.7.22.2

檢視 0.208 宿主機上啟動的nginx容器日誌

[root@server03 etcd]# kubectl logs nginx-ds-ncmbf --tail=2
10.11.0.207 - - [03/Sep/2020:02:22:23 +0000] "GET / HTTP/1.1" 200 612 "-" "curl/7.29.0" "-"
172.7.208.2 - - [03/Sep/2020:02:22:34 +0000] "GET / HTTP/1.1" 200 612 "-" "curl/7.64.0" "-"

第一條日誌為對端宿主機訪問日誌
第二條日誌為對端容器訪問日誌
可以看出源IP是宿主機的IP,和本機器中 容器 的IP地址

3.2 具體優化過程

3.2.1 先檢視iptables規則

[root@server02 etcd]# iptables-save |grep -i postrouting |grep docker0
-A POSTROUTING -s 172.7.207.0/24 ! -o docker0 -j MASQUERADE

3.2.2 安裝iptables並修改規則(需要在kubectl的所有節點中操作才有效)

yum install iptables-services -y

# 刪除之前的規則

[root@server02 etcd]# iptables -t nat -D POSTROUTING -s 172.7.207.0/24 ! -o docker0 -j MASQUERADE

# 重新新增規則:即 如果目的是 源頭是 172.7.207.0 目標是 172.7.0.0 則不作地址偽裝

[root@server02 etcd]# iptables -t nat -I POSTROUTING -s 172.7.207.0/24 ! -d 172.7.0.0/16 ! -o docker0 -j MASQUERADE

# 驗證規則並儲存配置

[root@server02 etcd]# iptables-save | grep -i postrouting|grep docker0

-A POSTROUTING -s 172.7.207.0/24 ! -d 172.7.0.0/16 ! -o docker0 -j MASQUERADE

[root@server02 etcd]# iptables-save > /etc/sysconfig/iptables

最終的效果:容器之間互相訪問的時候獲取的ip是容器的內部ip,而不是偽裝後的IP地址

3.2.3 注意: 如果docker重啟後需要再次確保該規則生效

docker服務重啟後,會再次增加該規則,要注意在每次重啟docker服務後,刪除該規則
驗證:

修改後會影響到docker原本的iptables鏈的規則,所以需要重啟docker服務

[root@hdss7-21 ~]# systemctl restart docker

[root@hdss7-21 ~]# iptables-save |grep -i postrouting|grep docker0

-A POSTROUTING -s 172.7.21.0/24 ! -o docker0 -j MASQUERADE

-A POSTROUTING -s 172.7.21.0/24 ! -d 172.7.0.0/16 ! -o docker0 -j MASQUERADE

# 可以用iptables-restore重新應用iptables規則,也可以直接再刪

~]# iptables-restore /etc/sysconfig/iptables

~]# iptables-save |grep -i postrouting|grep docker0

-A POSTROUTING -s 172.7.21.0/24 ! -d 172.7.0.0/16 ! -o docker0 -j MASQUERADE

3.2.4 結果驗證

# 對端啟動容器並訪問

[root@hdss7-21 ~]# docker run --rm -it busybox sh

/ # wget 172.7.22.2

# 本端驗證日誌

[root@hdss7-22 ~]# kubectl logs nginx-ds-j777c --tail=1

172.7.21.3 - - [xxxx] "GET / HTTP/1.1" 200 612 "-" "Wget" "-"

容器內部之間通訊要看到真實的pod IP地址

安裝iptables-services 服務,然後刪除 reject 規則,優化偽裝規則

這樣就可以做到docker之間,k8s內部系統是沒有做偽裝的