Spark詞彙統計例子一
阿新 • • 發佈:2021-06-22
執行WordCount程式
sc.textFile("./input").flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).collect
看執行結果,nice ~~
後邊我們會解釋這些程式碼的含義。
可登入hadoop102:4040檢視程式執行,整個流程還是非常清晰的:
3、分析WordCount流程
直接看個圖吧:
那我們回過頭來解釋一下程式碼吧,有scala語言基礎的話,看起來還不是太難:
- textFile("input"):讀取本地檔案input資料夾資料;
- flatMap(_.split(" ")):壓平操作,按照空格分割符將一行資料對映成一個個單詞;
- map((__,1)):對每一個元素操作,將單詞對映為元組;
- reduceByKey(+):按照key將值進行聚合,相加;
- collect:將資料收集到Driver端展示。
我這樣語言組織起來比較費勁,先留個坑,過段時間回過頭來再補充流程分析。
檔案是怎麼被讀出、被分割、被統計展示的呢?還是看圖吧,等我組織好語言回來補充:
參考資料:https://www.cnblogs.com/simon-1024/p/12170884.html