用GPU和Docker搭建高效靈活的深度學習研發平臺

阿新 • • 發佈：2019-01-11

給資料科學家提供最好的工作工具是非常困難的。他們的電腦上幾乎需要有所有的功能，如極致的效能，最新的軟體，以及隨心所欲的試驗。

我們為此開發了一套滿足上述所有需求的方案，並且避免了經常困擾系統管理員和開發團隊構建系統的重複性勞動。
tl;dr - 環境建立程式碼已經上傳至Github上。

它目前仍然是完善中的實驗品，但是已經可以工作。因為它的許多工具目前都還在軟體生存週期的早期，所以它日後會越來越好。

圖片描述

告別雲

對於計算密集型業務，公有云的託管費用高的令人望而卻步。一個AWS上高效能的跑在GPU上的虛擬機器大概要超過正常價格20倍的費用，以日計費會更貴。年費大約是25,000美元。

內部部署的虛擬伺服器會相對便宜點，但是並沒有對這些科學計算的用例而針對性調整，並且也不是共享環境友好的。
當然，還有其他一些問題… …

你好，老朋友

你身邊的伺服器又回來了，並且比以往更好。Nvidia在2015年釋出了“Dev Box”，一種資料科學家的夢想機器。雖然它有一點點小貴，大概15,000美元。

Andrej Karpathy 建立了一個相對完美並且廉價的家庭套裝。並且它可以擴充套件到和Nvidia的機器同樣的效能。我們的產品相當類似，並且給它找了個好地方，就在桌子的右下角。

開發即產品

現在你已經有了合適的硬體。然後你可以參照Nvidia的指示文件來安裝和配置所需的所有軟體。接下來花上幾個小時手工處理軟體包和相互依賴性上。它工作很完美，但是這對系統管理員是個噩夢，因為它是完全定製化的。

你用這個機器的時間越長，你就越難以去重建它。假如它宕機了，或者是你需要做大的版本升級，或者是你需要建立多個一次性使用的臨時方案。

停機時間是你的敵人，但是你引入了一個醜陋的故障點，並且無法享受全自動構建的所有益處。

解決方案

第一步：構建Vanilla CoreOS

假設你已經得到了合適的硬體，然後按照已經驗證的快速入門指南之一構建你的裸機。CoreOS支援PXE（無盤工作站），iPXE或者是有盤工作站。選擇其中任何適合你的方案即可。我們的方案選擇的是PXE構建我們的CoreOS系統

第二步：安裝CUDA驅動以及Nvidia的裝置-一次性操作

克隆Github上的es-dev-stack

$ git clone http://github.com/emergingstack/es-dev-stack.git

Docker映象編譯（大概會花費30分鐘時間，需要下載大約2.5G的資料）

$ cd es-dev-stack/corenvidiadrivers
$ docker build -t cuda .

編譯完成之後，假如這個映象非常好使，你可能會想要把這個映象推送到Docker的registry。從而方便你將來基於這個映象編譯其他的映象。Dockerfile的示例如下：

FROM ubuntu:14.04
MAINTAINER Mike Orzel <mike.orzel@emergingstack.com>

RUN apt-get -y update && apt-get -y install git bc make dpkg-dev && mkdir -p /usr/src/kernels && mkdir -p /opt/nvidia/nvidia_installers

ADD http://developer.download.nvidia.com/compute/cuda/7_0/Prod/local_installers/cuda_7.0.28_linux.run /opt/nvidia/

WORKDIR /usr/src/kernels
RUN git clone git://git.kernel.org/pub/scm/linux/kernel/git/stable/linux-stable.git linux
WORKDIR linux
RUN git checkout -b stable v`uname -r` && zcat /proc/config.gz > .config && make modules_prepare
RUN sed -i -e "s/`uname -r`+/`uname -r`/" include/generated/utsrelease.h # In case a '+' was added

# Nvidia drivers setup
WORKDIR /opt/nvidia/
RUN chmod +x cuda_7.0.28_linux.run && ./cuda_7.0.28_linux.run -extract=`pwd`/nvidia_installers
WORKDIR /opt/nvidia/nvidia_installers

RUN ./NVIDIA-Linux-x86_64-346.46.run -a -x --ui=none
RUN sed -i "s/read_cr4/__read_cr4/g" NVIDIA-Linux-x86_64-346.46/kernel/nv-pat.c
RUN sed -i "s/write_cr4/__write_cr4/g" NVIDIA-Linux-x86_64-346.46/kernel/nv-pat.c
CMD ./NVIDIA-Linux-x86_64-346.46/nvidia-installer -q -a -n -s --kernel-source-path=/usr/src/kernels/linux/ && insmod /opt/nvidia/nvidia_installers/NVIDIA-Linux-x86_64-346.46/kernel/uvm/nvidia-uvm.ko

現在執行CUDA的Docker容器

# docker run -it --privileged cuda

確認Nvidia的驅動已經安裝

# lsmod

你應該能看到幾個名為‘Nvidia’的專案已經安裝

安裝裝置

在root下執行‘mkdevs’指令碼來建立裝置

# ./mkdevs.sh

確認Nvidia的裝置已經安裝

# cd /dev
# ls -al | grep -i "nvidia"

現在你應該能夠看到如下的裝置已經存在並準備好對映入Docker的容器

crw-rw-rw-  1 root root 247,   0 Jan  4 05:54 nvidia-uvm
crw-rw-rw-  1 root root 195,   0 Jan  4 05:54 nvidia0
crw-rw-rw-  1 root root 195,   1 Jan  4 05:54 nvidia1
crw-rw-rw-  1 root root 195, 255 Jan  4 05:54 nvidiactl

至此一切完畢。

現在你應該就可以開始使用幾乎一成不變的系統，從而享受容器化帶來的益處。請注意，這裡我們使用的是特權模式來對映GPU裝置到Docker容器，這從共享主機模式角度是一個不安全的方式。

第三步：基於Google TensorFlow的測試案例

警告：這個Dockerfile的編譯產生的Docker映象超過10GB，大概會需要30-40分鐘來生成。
這裡我們已經添加了一個Jupyter的筆記到Docker映象來驗證GPU功能正常。這是個基本的基於TensorFlow的ConvNet，並足以驗證效果。

Docker映象構建如下：

$ cd es-dev-stack/tflowgpu
$ docker build -t tflowgpu .

Dockerfile如下：

FROM b.gcr.io/tensorflow/tensorflow:latest-gpu
MAINTAINER Mike Orzel <mike.orzel@emergingstack.com>

# Add some dependent packages we will need for the build process
RUN apt-get -y update && apt-get -y install git bc make dpkg-dev && mkdir -p /usr/src/kernels && mkdir -p /opt/nvidia/nvidia_installers

# Download the nvidia cuda package
ADD http://developer.download.nvidia.com/compute/cuda/7_0/Prod/local_installers/cuda_7.0.28_linux.run /opt/nvidia/
RUN chmod +x /opt/nvidia/cuda_7.0.28_linux.run

# download the linux kernel source and prepare it for use
WORKDIR /usr/src/kernels
RUN git clone git://git.kernel.org/pub/scm/linux/kernel/git/stable/linux-stable.git linux
WORKDIR linux
RUN git checkout -b stable v`uname -r` && zcat /proc/config.gz > .config && make modules_prepare

RUN sed -i -e "s/`uname -r`+/`uname -r`/" include/generated/utsrelease.h # In case a '+' was added
RUN sed -i -e "s/`uname -r`+/`uname -r`/" include/config/kernel.release # In case a '+' was added

# Nvidia drivers setup
WORKDIR /opt/nvidia/
RUN chmod +x cuda_7.0.28_linux.run && ./cuda_7.0.28_linux.run -extract=`pwd`/nvidia_installers
WORKDIR /opt/nvidia/nvidia_installers

RUN ./NVIDIA-Linux-x86_64-346.46.run -a -x --ui=none
RUN sed -i "s/read_cr4/__read_cr4/g" NVIDIA-Linux-x86_64-346.46/kernel/nv-pat.c
RUN sed -i "s/write_cr4/__write_cr4/g" NVIDIA-Linux-x86_64-346.46/kernel/nv-pat.c

RUN ./NVIDIA-Linux-x86_64-346.46/nvidia-installer -q -a -n -s --kernel-source-path=/usr/src/kernels/linux/ --no-kernel-module

# install modules to expected location, cuda will do modprobes in certain situations which require this
WORKDIR /usr/src/kernels/linux
RUN make modules && make modules_install
RUN mv /lib/modules/`uname -r`+ /lib/modules/`uname -r`
WORKDIR /opt/nvidia/nvidia_installers
RUN depmod

# Run jupyter notebook and create a folder for the notebooks
RUN chmod +x /run_jupyter.sh
RUN mkdir /examples
WORKDIR /examples
COPY CNN.ipynb /examples/CNN.ipynb
CMD /run_jupyter.sh

執行TensorFlow的Docker容器

下面這個‘docker run’命令會對映新安裝的GPU裝置到TensorFlow容器中。詳細命令如下：

$ docker run --device /dev/nvidia0:/dev/nvidia0 --device /dev/nvidia1:/dev/nvidia1 --device /dev/nvidiactl:/dev/nvidiactl --device /dev/nvidia-uvm:/dev/nvidia-uvm -it -p 8888:8888 --privileged tflowgpu

開啟瀏覽器並訪問Jupyter如下：http://{your dev box IP}:8888，並跑幾個例項。Nvidia Titan X上的效能測試應該比Intel i7 CPU快了十倍不止。

圖片描述

現在就開始使用es-dev-stack，也非常歡迎貢獻你的版本。本解決方案的靈感來源於以下幾個社群，在此感謝：

在文下一篇章，我們將會演示如何容器化的Spark環境和Kubernetes整合的潛力（依賴於標準 issue 19049的狀態）

責編，魏偉，關注Docker，尋求報道和投稿，請聯絡郵箱[email protected]

用GPU和Docker搭建高效靈活的深度學習研發平臺

告別雲

你好，老朋友

開發即產品

解決方案

用GPU和Docker搭建高效靈活的深度學習研發平臺

用elasticsearch和nuxtjs搭建bt搜索引擎

用MinGW和MSYS搭建windows下的linux環境模擬器

CentOS用Nginx和OwnCloud搭建私有云盤

用pyenv 和 virtualenv 搭建單機多版本python 虛擬開發環境

用pyenv和virtualenv搭建單機多版本python虛擬開發環境

用cl和sublime搭建簡易c++開發環境

用GitHub和Hexo搭建個人部落格

新手用hexo和github搭建屬於自己的部落格

【web伺服器搭建】用MAMP和WAMP搭建Web環境

用Eclipse和wxpython搭建一個Python Gui程式開發環境

mac下用mamp和phpstorm搭建php開發環境

用Bittorrent和PHP搭建BT Tracker伺服器和釋出頁

用pymysql和Flask搭建後端，響應前端POST和GET請求

pointNet:用於三維分類和分割的點集深度學習

基於docker搭建jenkins+maven程式碼構建部署平臺

用自己的圖片資料做tensorflow深度學習

文字情感分類---搭建LSTM（深度學習模型）做文字情感分類的程式碼

搭建一臺深度學習工作站

win10下基於python（anaconda）安裝gpu版本的TensorFlow以及kears深度學習框架

用GPU和Docker搭建高效靈活的深度學習研發平臺

告別雲

你好，老朋友

開發即產品

解決方案

相關推薦