MXNet多機分散式配置
mxnet多機分散式配置
將一臺機器上的mxnet拷到另外兩臺機器上
scp -r /home/hzz/mxnet [email protected]:/home/hzz/mxnet
如果已經在自己的環境安裝好mxnet或者不想新建一個Python環境,可以忽略下面這幾步。
建立新的Python環境
對每臺機器,用anacodna的conda建立新的Python環境,在這個環境安裝mxnet,
conda create -n mxnet-1.1-modify python=2.7
啟用這個環境
source activate mxnet-1.1-modify
如果要解除這個環境,只需
source deactivate
之後檢視當前的Python是不是在新的環境下
which python
安裝mxnet,搭建分散式
進入mxnet/python,安裝mxnet
python setup.py install
設定hosts為三臺機器的ip,這裡命名為Host,如
9.91.21.46
9.91.21.37
9.91.21.34
在每臺機器執行自己的local分散式程式, launch檔案在 mxnet/tools/
python launch.py -n 1 --launcher local `which python` /home/hzz/tcd-workspace/imagenet_gai.py --data_url /data/ --train_file ILSVRC2012_img_train.rec --batch_size 256 --num_classes 1000 --val_file ILSVRC2012_img_val.rec --num_layers=50 --network=resnet
每臺都成功後,再用分散式
python launch.py -n 3 -H /home/hzz/tcd-workspace/Host --launcher ssh `which python` /home/hzz/tcd-workspace/imagenet_gai.py --data_url /data/ --train_file ILSVRC2012_img_train.rec --batch_size 256 --num_classes 1000 --val_file ILSVRC2012_img_val.rec --num_layers=50 --network=resnet
踩坑
在conda create建立環境時,報錯post-link,更新conda為最新版即可
conda upgrade conda
從一臺機器拷貝資料到其他機器上,報許可權問題,目標機器拷貝的資料夾也需要許可權
sudo chmod 777 /data
OSError: libmxnet.so: cannot open shared object file: No such file or direct
把.so檔案放到LD_LIBRARY_PATH環境下,如:vi ~/.bashrc
export CUDA_HOME=/usr/local/cuda
export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:$CUDA_HOME:$CUDA_HOME/lib64
最後
source ~/.bashrc
相關推薦
MXNet多機分散式配置
mxnet多機分散式配置 將一臺機器上的mxnet拷到另外兩臺機器上 scp -r /home/hzz/mxnet [email protected]:/home/hzz/mxnet 如果已經在自己的環境安裝好mxnet或者不想新建一個Pyth
『TensorFlow』分散式訓練_其三_多機分散式
一、基本概念 Cluster、Job、task概念:三者可以簡單的看成是層次關係,task可以看成每臺機器上的一個程序,多個task組成job;job又有:ps、worker兩種,分別用於引數服務、計算服務,組成cluster。 同步更新 各個用於平行計算的電腦
elasticsearch5.5多機叢集配置 與 Centos 7關閉防火牆
今天,講解下elasticsearch叢集的配置與在centos中如何關閉防火牆..... 首先,講解下如何在centos中關閉防火牆? 為啥要講一下這塊內容呢?在實際的開發與運維中,經常會遇到應用啟動後,訪問應用.....報錯404......很多情
elasticsearch5.5多機叢集配置
elasticsearch5.5多機叢集配置 ELasticsearch 5.5要求JDK版本最低為1.8; 配置叢集之前 先把要加群叢集的節點的裡的data目錄下的Node目錄 刪除,否則叢集建立會失敗。 我這邊虛擬機器
用rabbitmq 寫一個多機分散式爬蟲
其實說是爬蟲也只是個幌子。換成其他的耗資源的程式也成,耗CPU,耗網路。 1,要有被用於爬取的url,用一個client生成url,在ser
快速上手多機多卡的分散式tensorflow
快速上手多機多卡的分散式tensorflow 終於又有時間和成果拿出來和大家分享,實在不容易,之前由於臨時更換任務加上入職事情多斷更了很久,現在主要在做一些KG和KGQA方面的工作。今天要和大家分享的是最近在工作中實現的分散式tensorflow。(BTW打個廣告~NLP和DL討論歡迎加群~二維
ros 工作空間的覆蓋、c++程式設計介面實現通訊方式、自定義訊息格式、分散式多機通訊
工作空間的覆蓋 同一個工作空間下,不允許出現同名的功能包,否則無法編譯。不同工作空間下,允許出現同名的功能包,但會出現工作空間覆蓋的現象。 ros工作空間的路徑記錄在ROS_PACKAGE_PATH環境變數中,可以通過env命令檢視計算機中的環境變數,再利用管道過濾出有關
多機部署之NFS的安裝與配置
本文已在本人部落格https://www.nsxsg.com/archives/90首發 文章目錄 多機部署之NFS的安裝與配置 多機部署之NFS的安裝與配置 NFS即網路檔案系統,說的通俗一點就是網路共享檔案。它能夠讓不同的伺服
zookeeper的單機多例項配置和分散式配置
單機多例項配置: #生成配置檔案,配置檔名隨便,這裡是zoo.cfg cp /data/apache/zookeeper/conf/zoo_sample.cfg /data/apache/zookeeper/conf/zoo.cfg vi /data/apache/zo
Apache JMeter壓力測試之分散式測試(多機聯測)
引言 利用JMeter進行負載測試的時候,使用單臺機器模擬數以千計的併發使用者有些力不從心,在執行的過程中,可能會遇到諸如CPU、記憶體負載過高,address already in use,程式自動關閉等問題。這時可以使用分散式測試,即在多臺機器上執行JMeter,以此獲
ros分散式多機通訊完整教程
ros多機通訊完整試坑教程 前言: 老規矩,先講講為啥要做這個專案。因為機器人上的工控機沒有辦法加顯示卡,所以無法跑TensorFlow-GPU,如果用CPU的話,一個是時間太長,二是消耗資源太多。 所以必須得將影象處理模組,放到筆記本上。剛好看到古月居大佬
spring多資料來源的配置(分散式事務管理)
<bean id="dataSource" class="com.atomikos.jdbc.AtomikosDataSourceBean" init-method="init" destroy-method="close"> <property name="uniqueResource
mxnet多層感知機訓練MNIST資料集詳解【轉】
來自:http://www.cnblogs.com/Mu001999/p/6221093.html #匯入需要的模組 import numpy as np #numpy只儲存數值,用於數值運算,解決Python標準庫中的list只能儲存物件的指標的問題 import os
分散式技術 -- Zookeeper多機叢集
Hello,朋友們。我又來了。昨天因為博主的電腦出了點問題,導致沒更新文章。  
Linux JDK Tomcat Nginx MariaDB 安裝,Nginx 多域名轉發配置
ora mysql 功能 with -o arch nobody case root用戶登錄 安裝JDK rpm包下載地址(jdk-7u17 ): http://www.oracle.com/technetwork/java/javase/downloads/java-a
臺式機vim配置
line 顯示 mpi php ogg abs ins ati xpl set autoread syntax on "set number " filetype ident on "set autoindent "set expandtab set cin
[轉載]Tomcat單機多實例配置
connect mini ack popu 機器 pri 腳本 你在 startup Tomcat單機多實例配置 當一個進程的線程超過500個的話,那麽這個進程的運行效率會變得很低。因為一個進程產生過多的線程,CPU資源會浪費在線程間切換過程當中。但當服務器配置很
tomcat之 Tomcat 7.0.78 單機多實例配置
chmod repl 4.2 其它 產品 export net 文件夾 .net 前言:JDK(Java Development Kit)是Sun Microsystems針對Java開發員的產品。自從Java推出以來,JDK已經成為使用最廣泛的java SDK. JDK是
hibernate之初學一對多和多對一配置及使用
外鍵 ble dtd nat util gin doc 一對多 dialect 按查詢及存取速率來說的一對多用的相對多對一少一些,這裏只寫主要配置文件的代碼 首先是hibernate的配置文件 <!DOCTYPE hibernate-configuration PU
如何在Linux虛擬機中配置rabbitMQ
width wid blog 修改 開啟 ges bsp eight 端口 1.配置Erlang環境的linux虛擬機 配置的步驟直接上圖: 2.rabiitMQ安裝到linux 直接上圖: 2.1安裝MQ 2.2修改rabb