大數據基礎之詞頻統計Word Count
阿新 • • 發佈:2018-12-13
als spark 級別 NPU share block 內容 atm world
對文件進行詞頻統計,是一個大數據領域的hello word級別的應用,來看下實現有多簡單:
1 Linux單機處理
egrep -o "\b[[:alpha:]]+\b" test_word.log|sort|uniq -c|sort -rn|head -10
2 Spark分布式處理(Scala優雅簡潔)
val sparkConf = new SparkConf() val sc = new SparkContext(sparkConf) sc.textFile("test_word.log").flatMap(_.split("\\s+")).map((_, 1)).reduceByKey(_ + _).sortBy(_._2, false).take(10).foreach(println)
3 Hadoop示例
hadoop jar /path/hadoop-2.6.1/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.6.1.jar wordcount /tmp/wordcount/input /tmp/wordcount/output
附:測試文件test_word.log內容如下:
hello world
hello www
輸出如下:
2 hello
1 world
1 www
大數據基礎之詞頻統計Word Count