1. 程式人生 > 其它 >Spark詞彙統計例子一

Spark詞彙統計例子一

執行WordCount程式

sc.textFile("./input").flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).collect

看執行結果,nice ~~

後邊我們會解釋這些程式碼的含義。

可登入hadoop102:4040檢視程式執行,整個流程還是非常清晰的:

3、分析WordCount流程

直接看個圖吧:

那我們回過頭來解釋一下程式碼吧,有scala語言基礎的話,看起來還不是太難:

  • textFile("input"):讀取本地檔案input資料夾資料;
  • flatMap(_.split(" ")):壓平操作,按照空格分割符將一行資料對映成一個個單詞;
  • map((__,1)):對每一個元素操作,將單詞對映為元組;
  • reduceByKey(+):按照key將值進行聚合,相加;
  • collect:將資料收集到Driver端展示。

我這樣語言組織起來比較費勁,先留個坑,過段時間回過頭來再補充流程分析。

檔案是怎麼被讀出、被分割、被統計展示的呢?還是看圖吧,等我組織好語言回來補充:

參考資料:https://www.cnblogs.com/simon-1024/p/12170884.html