Dr.Elephant開發者指南

阿新 • • 發佈：2019-01-20

建立Dr.Elephant專案

獲取原始碼

編譯程式碼

Dr.Elephant專案基於Play框架開發，所以開發Dr.Elephant專案的第一步就是安裝Play框架。可以在下面這個連結下載到最新版本的Play框架：https://www.playframework.com/download。安裝Play框架之後，一定要將play命令新增到環境變數$PATH中。

執行編譯指令碼，就可以對Dr.Elephant專案進行編譯。編譯過以後，會在zip資料夾中生成一個zip包。在執行編譯命令時，可以選擇帶一個引數選項來指明編譯的配置檔案。在這個配置檔案中，可以指定Hadoop或者Spark的版本資訊。在不指定的情況下，預設的配置是Hadoop2.3.0以及Spark1.4.0 。在配置檔案中除了可以指定以上兩個版本資訊外，還可以通過play_opts引數來指定play/sbt的選項。

$> ./compile.sh [./app-conf/compile.conf]

$> cat compile.conf

輸出是：

hadoop_version = 2.3.0 // The Hadoop version to compile with

spark_version = 1.4.0 // The Spark version to compile with

play_opts="-Dsbt.repository.config=app-conf/resolver.conf" // Other play/sbt options

以上的三個引數如果沒有通過配置檔案指定，預設就會使用上面列舉出的預設值。如果想指定一個固定的倉庫，可以通過設定sbt.repository.config 為resolver檔案的位置來實現，如上面所示即可。

測試Dr.Elephant

啟動單元測試

呼叫編譯指令碼，就會執行所有的單元測試程式。

本地部署測試Dr.Elephant

準備工作

Yarn和Hadoop/Spark

在本地部署Dr.Elephant之前，先要在本地安裝Hadoop和Spark(Yarn模式)，而且要確保資源管理器（Resource Manager）和歷史任務服務（Job History Service）程式的正確執行。關於Yarn上MapReduce任務的偽分散式模式可以參考

偽分散式部署。

指定環境變數HADOOP_HOME:

$>export HADOOP_HOME=/path/to/hadoop/home

$>export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop

將Hadoop的Home目錄新增到系統環境變數，Dr.Elephant會使用到Hadoop的Classpath中的某些Class檔案。

$>export PATH=$HADOOP_HOME/bin:$PATH

資料庫

Dr.Elephant需要將任務資訊和任務的診斷資訊儲存在本地資料庫MySQL中。

。Dr.Elephant目前只支援MySQL5.5以上的版本。在MySQL中建立一個數據庫，名稱為drelephant

$> mysql -u root -p

mysql> create database drelephant

在Dr.Elephant的配置檔案app-conf/elephant.conf中可以配置資料庫的url、資料庫名稱、使用者名稱稱和密碼。

使用其他資料庫

目前，Dr.Elephant預設是用MySQL資料庫。我們可以在演化檔案（evolution files）中看到MySQL的DDL宣告。如果我們希望能夠使用其他的資料庫，可以參考這裡進行配置。

本地安裝Dr.Elephant

完成上面的安裝前準備之後，可以開始在本地安裝Dr.Elephant。

執行Hadoop，並執行Hadoop歷史任務服務。

$> $HADOOP_HOME/sbin/mr-jobhistory-daemon.sh start historyserver

編譯Dr.Elephant專案，生成分散式部署的包。進入專案中的dist資料夾，這個資料夾包含了需要進行分散式部署的zip包。使用unzip命令將zip包解包，然後修改dr-elephant的釋出目錄。以後的描述中，我們都用DR_RELEASE來表示dr-elephant的釋出目錄。

$>cd dist; unzip dr-elephant*.zip;cd dr-elephant*

建立完資料庫之後，首次執行Dr.Elephant時，需要啟動演化功能（evolution）。啟動演化功能時，可以在elephant.conf配置檔案中引數jvm_props新增（或者將對jvm_props的註釋符去掉）-Devolutionplugin=enable -DapplyEvolutions.default=true。

$> vim ./app-conf/elephant.conf

jvm_props=" -Devolutionplugin=enabled -DapplyEvolutions.default=true"

啟動Dr.Elephant時，執行start.sh指令碼，並在引數中帶上應用程式的配置檔案目錄。

$> $DR_RELEASE/bin/start.sh $DR_RELEASE/../../app-conf

如果需要停止Dr.Elephant，執行：

$> $DR_RELEASE/bin/stop.sh

當Dr.Elephant執行成功之後，可以通過”ip:port”(localhost:8080)在瀏覽器中開啟UI。

Dr.Elephant的日誌預設輸出到dr-elephant釋出目錄的同級目錄dist中。

$> less $DR_RELEASE/../logs/elephant/dr_elephant.log

專案結構

app → Contains all the source files

└ com.linkedin.drelepahnt → Application Daemons

└ org.apache.spark → Spark Support

└ controllers → Controller logic

└ models → Includes models that Map to DB

└ views → Page templates

app-conf → Application Configurations

└ elephant.conf → Port, DB, Keytab and other JVM Configurations (Overrides application.conf)

└ FetcherConf.xml → Fetcher Configurations

└ HeuristicConf.xml → Heuristic Configurations

└ JobTypeConf.xml → JobType Configurations

conf → Configurations files

└ evolutions → DB Schema

└ application.conf → Main configuration file

└ log4j.properties → log configuration file

└ routes → Routes definition

images

└ wiki → Contains the images used in the wiki documentation

public → Public assets

└ assets → Library files

└ css → CSS files

└ images → Image files

└ js → Javascript files

scripts

└ start.sh → Starts Dr. Elephant

└ stop.sh → Stops Dr. Elephant

test → Source folder for unit tests

compile.sh → Compiles the application

啟發式演算法

針對MapReduce和Spark，Dr.Elephant已經實現了一系列的啟發式演算法。如果想對啟發式演算法進行更深入的瞭解，請閱讀“啟發式演算法指南”部分。所有的啟發式演算法都是外掛式的，可以簡單的配置使用。

新增新的啟發式演算法

我們可以按照下面的步驟去新增自定義的啟發式演算法，並把它新增到Dr.Elephant中。

建立新的啟發式演算法，並完成測試。
為該啟發式演算法建立一個新的view頁，例如helpMapperSpill.scala.html。
在HeuristicConf.xml檔案中新增該啟發式演算法的詳情。
HeuristicConf.xml檔案中啟發式演算法的詳情包含以下內容：

i. 應用程式型別：是mapreduce程式還是spark程式。

ii. 啟發式演算法名稱。

iii. 類名稱：類名的全稱。

iv. view頁的名稱

v. 該啟發式演算法適用的Hadoop版本號

5. 啟動Dr.Elephant，就包含了新的啟發式演算法

HeuristicConf.xm檔案示例：

<applicationtype>mapreduce</applicationtype>

<heuristicname>Mapper GC</heuristicname>

<classname>com.linkedin.drelephant.mapreduce.heuristics.MapperGCHeuristic</classname>

<viewname>views.html.help.mapreduce.helpGC</viewname>

</heuristic>

配置啟發式演算法

每個啟發式演算法都有一些閾值，用來計算不同的待優化等級。我們可以在HeuristicConf.xml檔案中指定這些閾值。

下面給出一個例子，介紹如何指定啟發式演算法的閾值：

<applicationtype>mapreduce</applicationtype>

<heuristicname>Mapper Data Skew</heuristicname>

<classname>com.linkedin.drelephant.mapreduce.heuristics.MapperDataSkewHeuristic</classname>

<viewname>views.html.help.mapreduce.helpMapperDataSkew</viewname>

<num_tasks_severity>10, 50, 100, 200</num_tasks_severity>

<deviation_severity>2, 4, 8, 16</deviation_severity>

<files_severity>1/8, 1/4, 1/2, 1</files_severity>

</params>

</heuristic>

分數計算

在Dr.Elephant中，使用啟發式演算法來分析執行完成的任務，會得到一個分數。這個分數的計算方法比較簡單，可以通過將待優化等級的值乘以作業(task)數量。

int score =0;

if (severity != Severity.NONE&& severity!= Severity.LOW) {

score = severity.getValue()* tasks;

}

return score;

Dr.Elephant可以計算不同任務型別的得分：

作業分數：所有作業的待優化等級數值之和

任務分數：該任務中所有的作業分數之和

任務流分數：該任務流中所有的任務分數之和

作者簡介：屈世超，對高併發系統設計開發感興趣，現專注於大資料開發工作。曾任職小米科技公司服務端後臺開發工程師，現擔任EverString資料平臺組高階開發工程師。

Dr.Elephant開發者指南

建立Dr.Elephant專案

獲取原始碼

編譯程式碼

測試Dr.Elephant

啟動單元測試

本地部署測試Dr.Elephant

準備工作

Yarn和Hadoop/Spark

資料庫

使用其他資料庫

本地安裝Dr.Elephant

專案結構

啟發式演算法

新增新的啟發式演算法

配置啟發式演算法

分數計算

Dr.Elephant開發者指南

Dr.Elephant部署指南

開源Android容器化框架Atlas開發者指南

dr.elephant啟發式演算法詳解

Flume 1.8.0 開發者指南-個人翻譯版

Apache Velocity開發者指南–導讀

《Apache Velocity開發者指南》

Dr. Elephant大象醫生安裝文件

（5）高通AP10.4開發者指南——WLAN（1.5 WLAN驅動模組化的一些其他修改）

（8）高通AP10.4開發者指南——WLAN（2.2 上下文及同步處理）

（2）高通AP10.4開發者指南——WLAN（1.2 WLAN軟體架構）

比特幣開發者指南(6)--錢包

比特幣開發者指南(8)--支付流程

（1）高通AP10.4開發者指南——WLAN（1.1 Wireless LAN簡介）

Dr.Elephant啟動過程問題彙總

Dr.Elephant 部署啟動詳細流程

dr.elephant 環境搭建及使用詳解

【Dr.Elephant原始碼分析系列文章-1】

Dr.Elephant簡介

ProtoBuf開發者指南

Dr.Elephant開發者指南

建立Dr.Elephant專案

獲取原始碼

編譯程式碼

測試Dr.Elephant

啟動單元測試

本地部署測試Dr.Elephant

準備工作

Yarn和Hadoop/Spark

資料庫

使用其他資料庫

本地安裝Dr.Elephant

專案結構

啟發式演算法

新增新的啟發式演算法

配置啟發式演算法

分數計算

相關推薦