spark例子

阿新 • • 發佈：2019-02-09

1、Wordcount程式測試：進入spark-shell中

val text_file =sc.textFile("hdfs://hadoop1:8020/ai/README.txt")

val counts =text_file.flatMap(line=>line.split("")).map(word=>(word,1)).reduceByKey(_+_)

counts.saveAsTextFile("hdfs://hadoop1:8020/ai/wordcount") 注意：Wordcount為運算結果的目錄

Wordcount的簡寫方式：scala> valwordCount = rdd.flatMap(_.split(' ')).map((_,1)).reduceByKey(_+_)

counts.saveAsTextFile("hdfs://hadoop1:8020/ai/wordcount")

檢視結果：scala> wordCount.collect

求總行數：val rows =sc.textFile("/ai/README.txt").count

求所有單詞的總和Wordsum:val workSum = sc.textFile("hdfs://hadoop1:8020/ai/README.txt").map(_.size).reduce(_+_)

求每行的單詞數：val rowSum =sc.textFile("/ai/README.txt").map(_.size)

求每行單詞最多的數量：val rowSum =sc.textFile("/ai/README.txt").map(_.size).reduce((a,b) =>if(a>b) a else b)

排序後儲存到HDFS上：scala> val wordCount =sc.textFile("/ai/README.txt").flatMap(_.split('')).map((_,1)).reduceByKey(_+_).map(x => (x._2, x._1)).sortByKey(false).map(x=> (x._2, x._1)).saveAsTextFile("/ai/wordSorted")

對生成的小檔案合併到本地：hadoopfs -getmerge /ai/wordSorted /home/hadoop/wordCount.txt

執行結果如下：

[[email protected]

~]$hadoop fs -ls /ai/wordcount

Found 2 items

-rw-r--r-- 3 hadoopsupergroup 0 2015-05-11 20:55/ai/wordcount/_SUCCESS注意：此處為運算成功的標誌

-rw-r--r-- 3 hadoopsupergroup 1574 2015-05-11 20:55 /ai/wordcount/part-00000注意：此處為運算的結果

2、rdd操作：常用例子

1）查詢一行中單詞最多的個數：sc.textFile("/ai/README.md").map(_.split("").size).reduce((a,b) => if (a>b) a else b)

另一種寫法為匯入java函式：import java.lang.Math sc.textFile("/ai/README.md").map(_.split("").size).reduce((a, b) => Math.max(a,b))

2）計算HDFS上 /ai/README.txt檔案的行數：scala> val count = sc.textFile("/ai/README.txt").count 等價於val count = sc.textFile("hdfs:///ai/README.txt").count 和val count = sc.textFile("hdfs://hadoop1:8020/ai/README.txt").count

3）檢視包含hadoop的記錄：sc.textFile("/ai/README.txt").filter(_.contains("hadoop")).collect

spark例子

spark 例子wordcount topk

spark例子整理

邏輯迴歸原理及spark例子

spark例子

[Spark][Python]RDD flatMap 操作例子

[Spark][python]以DataFrame方式打開Json文件的例子

[Spark][Hive]外部文件導入到Hive的例子

[Spark][Python]Spark 訪問 mysql , 生成 dataframe 的例子：

[Spark][Python]spark 從 avro 文件獲取 Dataframe 的例子

[Spark][Python]DataFrame中取出有限個記錄的例子

[Spark][Python]DataFrame select 操作例子

[Spark][Python]DataFrame where 操作例子

[Spark][Python]Spark Join 小例子

[Spark][Python]DataFrame的左右連接例子

[Spark][Python][DataFrame][SQL]Spark對DataFrame直接執行SQL處理的例子

[Spark][Streaming]Spark讀取網絡輸入的例子

Spark簡介安裝和簡單例子

spark執行例子eclipse maven打包jar

IDEA編寫wordcount，讀取hdfs檔案，執行在Spark叢集例子

spark-streaming例子程式

spark例子

相關推薦