Hadoop作業提交分析（一）

阿新 • • 發佈：2019-01-24

bin/hadoop jar xxx.jar mainclass args
……

　　這樣的命令，各位玩Hadoop的估計已經呼叫過NN次了，每次寫好一個Project或對Project做修改後，都必須打個Jar包，然後再用上面的命令提交到Hadoop Cluster上去執行，在開發階段那是極其繁瑣的。程式設計師是“最懶”的，既然麻煩肯定是要想些法子減少無謂的鍵盤敲擊，順帶延長鍵盤壽命。比如有的人就寫了些Shell指令碼來自動編譯、打包，然後提交到Hadoop。但還是稍顯麻煩，目前比較方便的方法就是用Hadoop eclipse plugin，可以瀏覽管理HDFS，自動建立MR程式的模板檔案，最爽的就是直接Run on hadoop了，但版本有點跟不上Hadoop的主版本了，目前的MR模板還是0.19的。還有一款叫Hadoop Studio的軟體，看上去貌似是蠻強大，但是沒試過，這裡不做評論。那麼它們是怎麼做到不用上面那個命令來提交作業的呢？不知道？沒關係，開源的嘛，不懂得就直接看原始碼分析，這就是開源軟體的最大利處。

我們首先從bin/hadoop這個Shell指令碼開始分析，看這個指令碼內部到底做了什麼，如何來提交Hadoop作業的。

因為是Java程式，這個指令碼最終都是要呼叫Java來執行的，所以這個指令碼最重要的就是新增一些前置引數，如CLASSPATH等。所以，我們直接跳到這個指令碼的最後一行，看它到底添加了那些引數，然後再逐個分析（本文忽略了指令碼中配置環境引數載入、Java查詢、cygwin處理等的分析）。

#run it
exec "$JAVA"$JAVA_HEAP_MAX $HADOOP_OPTS -classpath "$CLASSPATH"$CLASS

"[email protected]"

　　從上面這行命令我們可以看到這個指令碼最終添加了如下幾個重要引數：JAVA_HEAP_MAX、HADOOP_OPTS、CLASSPATH、CLASS。下面我們來一個個的分析（本文基於Cloudera Hadoop 0.20.1+152分析）。

　　首先是JAVA_HEAP_MAX，這個就比較簡單了，主要涉及程式碼如下：

JAVA_HEAP_MAX=-Xmx1000m
# check envvars which might override default args
if [ "$HADOOP_HEAPSIZE" !="" ];then#echo

"run with heapsize $HADOOP_HEAPSIZE"
JAVA_HEAP_MAX="-Xmx""$HADOOP_HEAPSIZE""m"#echo$JAVA_HEAP_MAX
fi

　　首先賦予預設值-Xmx1000m，然後檢查hadoop-env.sh中是否設定並匯出了HADOOP_HEAPSIZE，如果有的話，就使用該值覆蓋，得到最後的JAVA_HEAP_MAX。

　　接著是分析CLASSPATH，這是這個指令碼的重點之一。這部分主要就是添加了相應依賴庫和配置檔案到CLASSPATH。

# 首先用Hadoop的配置檔案目錄初始化CLASSPATH
CLASSPATH="${HADOOP_CONF_DIR}"
……
# 下面是針對於Hadoop發行版，新增Hadoop核心Jar包和webapps到CLASSPATH
if [ -d "$HADOOP_HOME/webapps" ];then
CLASSPATH=${CLASSPATH}:$HADOOP_HOME
fi
for f in $HADOOP_HOME/hadoop-*-core.jar;do
CLASSPATH=${CLASSPATH}:$f;
done
# 新增libs裡的Jar包
for f in $HADOOP_HOME/lib/*.jar;do
CLASSPATH=${CLASSPATH}:$f;
Done
for f in $HADOOP_HOME/lib/jsp-2.1/*.jar;do
CLASSPATH=${CLASSPATH}:$f;
done
# 下面的TOOL_PATH只在命令為“archive”時才新增到CLASSPATH
for f in $HADOOP_HOME/hadoop-*-tools.jar;do
TOOL_PATH=${TOOL_PATH}:$f;
done
for f in $HADOOP_HOME/build/hadoop-*-tools.jar;do
TOOL_PATH=${TOOL_PATH}:$f;
done
# 最後新增使用者的自定義Hadoop Classpath
if [ "$HADOOP_CLASSPATH" !="" ];then
CLASSPATH=${CLASSPATH}:${HADOOP_CLASSPATH}
fi

　　上面只分析一部分，由於程式碼比較長，針對開發者部分的CLASSPATH新增沒有列出來。

　　下面是這個指令碼的重點、實體之處：CLASS分析。Shell指令碼會根據你輸入的命令引數來設定CLASS和HADOOP_OPTS，其中CLASS所指向的類才是最終真正執行你的命令的實體。

# figure out which class to runif [ "$COMMAND"="namenode" ] ;then
CLASS='org.apache.hadoop.hdfs.server.namenode.NameNode'
HADOOP_OPTS="$HADOOP_OPTS $HADOOP_NAMENODE_OPTS"
……
elif [ "$COMMAND"="fs" ] ;then
CLASS=org.apache.hadoop.fs.FsShell
HADOOP_OPTS="$HADOOP_OPTS $HADOOP_CLIENT_OPTS"
……
elif [ "$COMMAND"="jar" ] ;then
CLASS=org.apache.hadoop.util.RunJar
……
elif [ "$COMMAND"="archive" ] ;then
CLASS=org.apache.hadoop.tools.HadoopArchives
CLASSPATH=${CLASSPATH}:${TOOL_PATH}
HADOOP_OPTS="$HADOOP_OPTS $HADOOP_CLIENT_OPTS"
……
else
CLASS=$COMMAND
fi

　　這裡我們要關心的就是"$COMMAND" = "jar"時對應的類org.apache.hadoop.util.RunJar，這個類等下我們繼續分析，這是我們通向最終目標的下一個路口。

　　指令碼在最後還設定了hadoop.log.dir、hadoop.log.file等HADOOP_OPTS。接著，就利用exec命令帶上剛才的引數提交任務了。

　　通過對上面的分析，我們知道了，如果想取代這個指令碼，那就必須至少把Hadoop依賴的庫和配置檔案目錄給加到CLASSPATH中（JAVA_HEAP_MAX和HADOOP_OPTS不是必須的），然後呼叫org.apache.hadoop.util.RunJar類來提交Jar到Hadoop。

　　To be continued...

Hadoop作業提交分析（一）

Hadoop作業提交分析（一）

Hadoop RPC分析（一） -- Client

【Java】【Flume】Flume-NG啟動過程源代碼分析（一）

linux設備驅動之misc驅動框架源碼分析（一）

linux驅動開發之蜂鳴器驅動源碼分析（一）

Hadoop源碼系列（一）FairScheduler申請和分配container的過程

【雷電】源代碼分析（一）-- 進入遊戲開始界面

java代碼實現highchart與數據庫數據結合完整案例分析（一）---餅狀圖

使用Apriori進行關聯分析（一）

python的計數引用分析（一）

python的random模塊函數分析（一）

Java淺談數組之內存分析（一）

SpringMVC的流程分析（一）—— 整體流程概括

[讀書筆記] Python數據分析（一）準備工作

Ocata Neutron代碼分析（一）——Neutron API啟動過程分析

Spring 源碼分析（一）--整體架構和環境搭建

同步鎖源碼分析（一）AbstractQueuedSynchronizer原理

Hadoop學習之路（一）理論基礎和邏輯思維

【彩彩只能變身隊】用戶需求分析（一）—— 調查問卷

【彩彩只能變身隊】用戶需求分析（一）—— 調查結果

Hadoop作業提交分析（一）

相關推薦