1. 程式人生 > >使用docker搭建資料分析環境

使用docker搭建資料分析環境

:早在學習《雲端計算》這門課之前就已經知道docker,學習這門課時老師還鼓勵我們自己嘗試一下;但是直到去年年底才有機會嘗試,用過之後感覺確實很好用。最近需要部署幾個shiny應用,又回顧了一下,並記錄與此。

 

1. 初識docker


最開始聽說docker,就知道可以使用docker來部署應用,相對於之前在主機上直接安裝應用所需的執行環境,docker要方便的多。對於我這樣時不時被開發環境搞的懷疑人生的半個開發人員,自然會對這樣神奇的工具有所關注,只是一直沒有找到機會嘗試。直到去年年底,為了部署一個Django應用,終於有機會嘗試了一下。有以下幾點認識:

  1. 與虛擬機器相比,docker是作業系統級別的虛擬化,與host共享了很多系統資源。因此docker比虛擬機器更輕量級,執行的時候啟動速度更快,開銷也更小;
  2. 虛擬機器可以安裝桌面,但是docker部署的應用一般通過"IP+埠"的方式來訪問;
  3. docker以image(映象)為基礎,應用程式執行在基於特定image開啟的container(容器)上;
  4. 如果多個程式使用同一個image來開啟不同的container,這些container共享該image而不需要複製多個;
  5. 一個image可以是一個完整的作業系統(例如Ubuntu的官方映象,大小為2G左右),也可以只是滿足某個應用程式執行的基本環境(例如執行nginx的alpine映象,只有15.5M);
  6. image是分層的,已有image的層是隻讀屬性的,可以在已有image的基礎上新增新的層來覆蓋下層的東西,從而構建出新的image.

圖1:docker與虛擬機器的區別,圖片來源:link

由於應用程式執行在container中,而容器又是基於image構建的,因此image就顯得非常重要了。image相當於一個燒錄好的光碟,裡面有預裝好的作業系統或應用程式等。docker官方維護了docker hub這個網站,類似於github,可以直接從該網站上pull各種應用程式的官方映象。這些映象可以直接使用,也可以在此基礎上新增新的層,來構建自己的映象。

 

 Docker的安裝

windows下需要win10作業系統的特定版本(Windows 10 64bit: Pro, Enterprise or Education (1607 Anniversary Update, Build 14393 or later))才可以安裝docker engine。下面是CentOS下安裝及啟動Docker Community Edition(CE)的官方文件:

  • 下載安裝:https://docs.docker.com/install/linux/docker-ce/centos/
  • 基本使用方法:https://docs.docker.com/get-started/

在安裝好docker,並啟動docker之後,就可以pull官方的image,並在這些image的基礎上按照自己的需要建立新的image。

 

2. Dockerfile檔案


建立自己的image只需要一個Dockerfile檔案就可以,該檔案中儲存了構建image的每一步命令。image的每一層可以僅包含一個命令也可以是多個命令,且每一層執行完成後可以快取起來(下次不用重新執行已構建完成的層中的命令),這樣就讓可追溯的逐步搭建執行環境成為可能。

Dockerfile中儲存的是與基礎image對應的作業系統命令,例如以Ubuntu為基礎image構建的新的image,該檔案中就是Ubuntu系統的shell命令。以下是docker官網對該檔案的介紹:

Docker can build images automatically by reading the instructions from a Dockerfile. A Dockerfile is a text document that contains all the commands a user could call on the command line to assemble an image. Using docker build users can create an automated build that executes several command-line instructions in succession.

下面是一個該檔案的示例,使用了jupyter的官方映象datascience-notebook:

 1 # 指定基礎image
 2 FROM jupyter/datascience-notebook:03b897d05f16
 3 MAINTAINER Xin Xiong <[email protected].com>
 4 
 5 # 替換CRAN映象為國內的映象,可以更快的安裝R packages
 6 ARG CRAN_MIRROR=https://mirrors.tuna.tsinghua.edu.cn/CRAN/
 7 
 8 # 由於要安裝程式,使用root身份
 9 USER root
10 
11 # install Java
12 RUN \
13   apt-get update -qq && \
14   apt-get install -y openjdk-8-jdk  && \
15   apt-get install -y mlocate && updatedb && \
16   rm -rf /var/lib/apt/lists/*
17 
18 # 為安裝rJava做準備
19 # need using ln to avoid some errors, such as conftest.c:1:10: fatal error: jni.h: No such file or directory
20 RUN \
21   ln -s /usr/lib/jvm/java-8-openjdk-amd64/include/jni.h /opt/conda/include/ && \
22   ln -s /usr/lib/jvm/java-8-openjdk-amd64/include/linux/jni_md.h /opt/conda/include/  && \
23   ln -s /usr/lib/jvm/java-8-openjdk-amd64/jre/lib/amd64/server/libjvm.so /usr/lib/ && \  
24   R CMD javareconf
25 
26 
27 # 新增本地資料夾package到映象中的/src
28 ADD ./package/ /src/
29 
30 # link lib
31 RUN \
32   ln -s /opt/conda/lib/libpcre.so /usr/lib/  && \
33   ln -s /opt/conda/lib/liblzma.so /usr/lib/  && \
34   ln -s /opt/conda/lib/libbz2.so /usr/lib/  && \
35   ln -s /opt/conda/lib/libz.so /usr/lib/  && \
36   ln -s /opt/conda/lib/libiconv.so /usr/lib/  && \
37   ln -s /opt/conda/lib/libicuuc.so /usr/lib/  && \
38   ln -s /opt/conda/lib/libicui18n.so /usr/lib/
39 
40 # 安裝前面新增到映象/src資料夾中rpacks.txt檔案中的R package
41 # 且使用國內的映象地址CRAN_MIRROR
42 RUN \
43   cd /src && \
44   R -e 'install.packages(sub("(.+)\\\\n","\\1", scan("rpacks.txt", "character")), repos="'"${CRAN_MIRROR}"'")'
45 
46 # 安裝前面新增到映象/src資料夾中requirements.txt檔案中的Python package
47 RUN \
48   cd /src && \
49   pip --no-cache-dir install -r requirements.txt && \
50   rm -rf /root/.cache
51 
52 # 直接使用conda安裝Python package
53 RUN conda install -c rdkit rdkit
54 
55 # 切換到預設普通使用者
56 USER jovyan

Jupyter的官方映象datascience-notebook,包含了Python, R和Julia以及一些資料分析中常用的包。我在該映象的基礎上,安裝了Java以及其他一些自己需要的Python和R包。這些包的的名字儲存在資料夾package的rpacks.txt和requirements.txt兩個檔案中,每個包名稱一行。在上面的操作中,第28行新增該資料夾中的內容到映象中的的/src目錄下,第42-44行安裝了rpacks.txt檔案中的R包,第47-50行安裝了requirements.txt檔案中的Python包。更多關於該映象的說明可以在官方文件的描述中看到,還有其他的官方映象可供選擇。

 

 

2.1 Dockfile中的關鍵字

如上面的例子所示,Dockfile中包含的最重要的內容是可以在系統命令列中執行的命令,只是每一行命令前加了一些Dockfile特有的關鍵詞。下面是一些常見的關鍵詞:

2.1.1 FROM

FROM <映象>:<標籤>  指定基礎映象為該映象的一個標籤版本,上面例子中的第2行

2.1.2 RUN

執行指定的命令。使用RUN可以執行任何被基礎image支援的命令。如果基礎image是ubuntu系統,那麼軟體管理部分只能使用ubuntu的命令

2.1.3 ADD

新增本地檔案或目錄到container

2.1.4 LABLE

新增一些元資料,格式為LABEL <key>=<value>,例如上面的第3行可以寫成LABEL maintainer="Xin Xiong, [email protected]@126.com". MAINTAINER關鍵詞已棄用。

2.1.5 ARG

定義一個變數,如第6行,可以重複使用

更多關鍵詞,可以參考官方文件。此外,"&&"用來連線兩條不同的指令,"\" 表示同一條語句換行顯示

 

2.2 Dockerfile的最佳實踐

官方文件給出了一些最佳實踐指南,比如說不要安裝不需要的package,應用解偶聯,最小化層數,如何最好的使用"apt-get",COPY和ADD關鍵詞的差別等。

 

2.3 構建自己的image

有了上面的檔案,就可以在Dockerfile這個檔案所在的資料夾,使用下面的命令build自己的映象了:

docker build -t onlybelter/ds-notebook .

這句命令會使用當前目錄下的Dockerfile檔案,構建一個image,新image的名稱為onlybelter/ds-notebook。

 

3. docker-compose


docker-compose可以用來配置一些在image中沒有設定的引數,例如埠號,log日誌的目錄,容器啟動時執行的命令等。此外還可以用來啟動、停止容器,列印log,檢視容器狀態和限制資源使用等功能。

docker-compose的其他介紹及安裝可以參考官方文件

 

3.1 docker-compose的配置檔案

docker-compose的配置檔案是一個放在與Dockerfile相同目錄下,以.yml結尾的檔案,示例如下:

 1 version: '2.2'
 2 
 3 services:
 4   jupyterlab:
 5     image: onlybelter/ds-notebook
 6     command: /bin/bash -c "jupyter lab --no-browser --ip=0.0.0.0 --notebook-dir=/mnt/notebook"
 7     cpus: 16
 8     mem_limit: 8g
 9     volumes:
10       - /mnt/home/belter/github/jupyter-note:/mnt/notebook
11       - /etc/localtime:/etc/localtime:ro
12     environment:
13       - PYTHONUNBUFFERED=1
14     ports:
15       - 8888:8888

第1行,指定了配置檔案的版本號,由於v3不支援單機模式下配置資源,因此這裡使用了v2.2(如果不適用swarm或其他叢集模式,官方推薦使用v2);

第4行是service的名稱;

第5行指定了image的名稱,就是上面build好的映象;

第6行設定了容器啟動時的命令;

第7-8行限制了資源的使用:16個CPU核,8G記憶體;

第10行,相當於掛載了一個本地目錄到容器,這樣容器和外部的host之間就可以交換檔案了(內外對應的資料夾裡的內容是同步的);

第11行用於同步容器與host的時間;

第13行設定了一個環境變數;

第15行設定了容器內外埠號的對應關係,左邊是host的埠號,右邊是容器內的埠號。

 

3.2 啟動容器

配置好上面的.yml檔案(我的檔案為docker-compose.yml)後,就可以啟動前面build好的映象來建立一個容器了。

$ sudo docker-compose up -d

$ sudo docker-compose logs

第1行命令使用當前目錄下的docker-compose.yml檔案建立容器,並在後臺執行;第2行命令列印logs,可以從logs中獲得Jupyter Notebook生成的token來登入。

Attaching to jupyterlab_jupyterlab_1
jupyterlab_1  | [I 20:07:06.567 LabApp] Writing notebook server cookie secret to /home/jovyan/.local/share/jupyter/runtime/notebook_cookie_secret
jupyterlab_1  | [I 20:07:06.731 LabApp] JupyterLab beta preview extension loaded from /opt/conda/lib/python3.6/site-packages/jupyterlab
jupyterlab_1  | [I 20:07:06.731 LabApp] JupyterLab application directory is /opt/conda/share/jupyter/lab
jupyterlab_1  | [W 20:07:06.737 LabApp] JupyterLab server extension not enabled, manually loading...
jupyterlab_1  | [I 20:07:06.737 LabApp] JupyterLab beta preview extension loaded from /opt/conda/lib/python3.6/site-packages/jupyterlab
jupyterlab_1  | [I 20:07:06.737 LabApp] JupyterLab application directory is /opt/conda/share/jupyter/lab
jupyterlab_1  | [I 20:07:06.744 LabApp] Serving notebooks from local directory: /mnt/notebook
jupyterlab_1  | [I 20:07:06.744 LabApp] 0 active kernels
jupyterlab_1  | [I 20:07:06.744 LabApp] The Jupyter Notebook is running at:
jupyterlab_1  | [I 20:07:06.744 LabApp] http://1c7e68e582c4:8888/?token=3bda623azj07414dbcf58bf977e2c2855158bd052f77afa2
jupyterlab_1  | [I 20:07:06.744 LabApp] Use Control-C to stop this server and shut down all kernels (twice to skip confirmation).

使用該host的ip加埠號8888,輸入日誌中的token就可以開啟Jupyter的介面。我的本地地址為,http://192.168.1.33:8888/lab?

介面如下圖所示:

 

其他docker-compose命令:

$ sudo docker-compose down  # 關閉容器
$ sudo docker-compose ps # 檢視容器執行狀態

此外使用docker stats <container name>可以檢視該容器資源使用情況:

 

PS: 最近都是忙到每個月最後一天更新部落格,要改改啦!

 

Reference


https://stackoverflow.com/questions/16047306/how-is-docker-different-from-a-virtual-machine

https://www.docker.com/resources/what-container#/package_software

https://blog.csdn.net/weixin_37645838/article/details/83343029

https://docs.docker.com/engine/reference/builder/