學習hadoop的HelloWorld——單詞統計WordCount
學習java時,第一個執行的程式就是HelloWorld;對應的,學習hadoop第一個執行的程式是hadoop提供的示例WordCount;
1.執行hadoop,以管理員身份開啟cmd,執行 start-all 指令,hadoop的安裝和配置是事先準備好的,安裝和配置的方法可以看我的上一篇文章:windows下安裝和配置hadoop
2.執行hadoop fs -ls /,檢視Hadoop檔案系統根目錄下的包含的目錄,這3個目錄是上一次執行單詞統計中生成的,為了重新演示,刪除這些目錄,執行hadoop fs -rm -r /input /output /tmp
3.到hadoop安裝目錄下,我的安裝目錄是D:\hadoop\hadoop-3.2.2,安裝目錄下有一個LICENSE.txt檔案,對這個檔案的內容進行單詞統計,將這個檔案加入到hadoop檔案系統的input目錄下,input目錄下放置一個或多個要統計的檔案;
首先在hadoop檔案系統中建立input資料夾,執行hadoop fs -mkdir /input
然後ls可以看到新建了input目錄
4.將LICENSE.txt檔案加入到hadoop檔案系統的input目錄下,執行hadoop fs -put LICENSE.txt /input/,然後ls可以看到input下有LICENSE.txt檔案
5.進行單詞統計,WordCount的程式是hadoop的示例程式,位置在hadoop的安裝目錄下的share\hadoop\mapreduce\hadoop-mapreduce-examples-3.2.2.jar,執行這個jar,執行
hadoop jar share\hadoop\mapreduce\hadoop-mapreduce-examples-3.2.2.jar wordcount /input /output
6.檢視輸出的結果,使用ls指令可以看到hadoop檔案系統中出現了output目錄和tmp目錄,output目錄下新出現了_SUCCESS檔案和part-r-00000檔案,單詞統計的結果在part-r-00000檔案中
檢視part-r-00000檔案檔案內容,執行hadoop fs -cat /output/part-r-00000,可以看到單詞統計的結果: