hadoop分割槽二次排序示例
阿新 • • 發佈:2020-12-27
1、實驗要求:
對基站資料進行排序,要求按電話號碼升序,到達時間降序進行排序。
2、常用命令
執行java程式的jar包:hadoop jar hadoop_sort.jar com.hadoop.sort.My_hadoopsort /input /outfile
(其中第一個引數是jar包路徑(在linux本地),第二個引數是main()函式所在的完整類名,第三個引數是輸入資料的路徑(在hdfs上),第四個引數是輸出資料的資料夾(在hdfs上)outfile這個資料夾不能已經存在)
刪除linux資料夾:rm -rf /home/hz/Docunments/
刪除hdfs資料夾:hadoop fs -rm -r -skipTrash /outfile
將得到的hdfs的分割槽檔案合併下載到linux本地:
hadoop fs -getmerge /outfile /home/hz/Documents/result.txt
當我將分散在各個檔案的類,集中到一起時:寫一個外部類,裡面包含各個內部類。(這時內部類要設定成靜態:public static class …,因為在後面會直接呼叫 內部類.class),這樣寫是為了解除一條警告