Ubuntu節點的萬兆網搭建
阿新 • • 發佈:2019-02-05
之前用千兆網跑MXNet的分散式,由於訓練資料量比較大並且通訊比較頻繁,網路通訊開銷太大,訓練速度非常慢,正好實驗室有閒置的萬兆網裝置(萬兆網絡卡、萬兆交換機),因此打算給各個工作節點配上萬兆網絡卡(Chelsio T310),並共同接入萬兆交換機(RackSwitch G8100)中,下面說一下具體過程。
1、插網絡卡
將萬兆網絡卡插入節點的PCI插槽中(節點要有空閒的PCI插槽才行)
2、安裝網絡卡驅動
(1)節點的系統是Ubuntu 14.04桌面版的,系統已經集成了相應的驅動,可以不用安裝了,沒有驅動的話也可以去網絡卡裝置商官網下載安裝即可。
(2)使用命令,檢視是否安裝成功。
lspci | grep 'et'
可以看到系統識別到了兩個網絡卡,一個是千兆網絡卡,另一個是萬兆網絡卡也就是剛剛安裝的Chelsio T310。
3、配置萬兆網絡卡地址
使用命令,檢視當前網絡卡IP的配置情況。
ifconfig
配置為外網,萬兆網絡卡配置為內網。
修改網路配置檔案:
sudo vim /etc/network/interfaces
配置資訊如下:# interfaces(5) file used by ifup(8) and ifdown(8) auto lo iface lo inet loopback auto eth0 iface eth0 inet static address 211.69.198.225 netmask 255.255.255.0 dns-nameservers *.*.*.*(自己的dns地址) auto eth1 iface eth1 inet static address 192.168.0.1 netmask 255.255.255.0
配置完後重啟節點,再次使用ifconfig命令檢視:
使用相同的方法,給另外一個節點IP配置成192.168.0.2,在節點1中,使用命令:ping 192.168.0.2,ping通了,說明網路可以連通,結果如下:
4、測試萬兆網的效果
可以使用命令檢視,結果如下:
nm-tool
當然還是自己用命令測一下實際效果更踏實一點,我們使用iperf3命令測試,iperf3安裝命令:
sudo apt-get install iperf3
(在此提醒一點,不要用iperf2版本測,因為這個版本對萬兆光纖網支援不是很好,測試結果會有誤)使用iperf3命令,一個節點做服務端,另外一個節點做客戶端。
服務端命令:
iperf3 -s
客戶端命令:(1)測試千兆網:
iperf3 -c 211.69.198.225 (-c 引數後跟服務端的千兆網絡卡ip)
結果如下:
(2)測試萬兆網:
iperf3 -c 192.168.0.1 (-c 引數後跟服務端的萬兆網絡卡ip)
結果如下:
按以上方法給各個gpu節點搭建萬兆網即可。
接下來就可以使用萬兆網跑MXNet的分散式了(如果你有InfiniBand網路就最好了,萬兆光纖網只能算是一種折中吧)。