實訓任務02:Hadoop基礎操作.md
實訓任務02:Hadoop基礎操作
實訓1:建立測試檔案上傳HDFS,並顯示內容
需求說明:
在本地計算機上建立測試檔案helloHadoop.txt,輸入任意3行記錄。將helloHadoop.txt上傳到HDFS目錄/user/root/filetest/下,並以HDFS命令顯示 它的內容(提示:HDFS目錄/user/root/filetest並不存在,因此需要先建立它。
實現思路及步驟:
-
用vi編輯器編寫helloHadoop.txt檔案。
-
啟動hdfs
-
用hdfs dfs –put 命令上傳檔案到HDFS。
操作步驟如下(請截圖)
實訓2 統計檔案中所有單詞的平均長度
需求說明:
在叢集伺服器master的本地目錄上有日誌檔案root/install.log,要求對檔案中的單詞進行統計,求單詞的平均長度。
實現思路及步驟:
-
上傳/root/install.log到HDFS目錄/user/root/
-
使用Hadoop官方的示例程式包hadoop-mapreduce-eamples-2.6.4.jar,以hadoop.jar命令提交MapReduce任務。參考程式碼如下:
Hadoop jar \
$HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.6…jar \
Wordmean \
/user/root/install.log \
/user/root/wordmean
- 檢視輸出結果。
執行結果如下:(請截圖)
實訓3 查詢與中斷MapReduce任務
需求說明:
使用Web瀏覽器檢視在實訓2中執行過的MapReduce任務。依次提交3個統計單詞和度的MapReduce任務,檢視當前叢集的計算資源使用情況,以及任務列表資訊。中斷第2個任務,觀察後續任務的執行情況。
實現思路及步驟:
-
單擊列表中實訓2中提交的任務連結,查詢執行時間與完成狀態。
-
在叢集伺服器終端,分別提交3個統計單詞長度的MapReduce任務,具體執任命令參考實訓2程式碼。注意,輸出目錄必須重新指定,並且3個任務參應的輸出目錄是不同的。
-
在任務列表介面上,單擊任務2並中斷它。
各步驟執行結果如下:(請截圖)
實驗結果分析與總結
(注:必須寫,這裡填寫你的實驗達到的預期效果,是否按時完成,遇到哪些問題?如何解決的?還需要學習和提高的地方?下一步的計劃和打算?)