學習hadoop的HelloWorld——單詞統計WordCount

阿新 • • 發佈：2021-10-02

學習java時，第一個執行的程式就是HelloWorld；對應的，學習hadoop第一個執行的程式是hadoop提供的示例WordCount；

1.執行hadoop，以管理員身份開啟cmd，執行 start-all 指令，hadoop的安裝和配置是事先準備好的，安裝和配置的方法可以看我的上一篇文章：windows下安裝和配置hadoop

2.執行hadoop fs -ls /，檢視Hadoop檔案系統根目錄下的包含的目錄，這3個目錄是上一次執行單詞統計中生成的，為了重新演示，刪除這些目錄，執行hadoop fs -rm -r /input /output /tmp

3.到hadoop安裝目錄下，我的安裝目錄是D:\hadoop\hadoop-3.2.2，安裝目錄下有一個LICENSE.txt檔案，對這個檔案的內容進行單詞統計，將這個檔案加入到hadoop檔案系統的input目錄下，input目錄下放置一個或多個要統計的檔案；

首先在hadoop檔案系統中建立input資料夾，執行hadoop fs -mkdir /input

然後ls可以看到新建了input目錄

4.將LICENSE.txt檔案加入到hadoop檔案系統的input目錄下，執行hadoop fs -put LICENSE.txt /input/，然後ls可以看到input下有LICENSE.txt檔案

5.進行單詞統計，WordCount的程式是hadoop的示例程式，位置在hadoop的安裝目錄下的share\hadoop\mapreduce\hadoop-mapreduce-examples-3.2.2.jar，執行這個jar，執行

hadoop jar share\hadoop\mapreduce\hadoop-mapreduce-examples-3.2.2.jar wordcount /input /output

6.檢視輸出的結果，使用ls指令可以看到hadoop檔案系統中出現了output目錄和tmp目錄，output目錄下新出現了_SUCCESS檔案和part-r-00000檔案，單詞統計的結果在part-r-00000檔案中

檢視part-r-00000檔案檔案內容，執行hadoop fs -cat /output/part-r-00000，可以看到單詞統計的結果：