1. 程式人生 > 其它 >web 資料展示分頁

web 資料展示分頁

一、 RDD建立

1.從本地檔案系統中載入資料建立RDD

 

驗證本地檔案系統是否建立成功

 

 

 

2.從HDFS載入資料建立RDD

登入hdfs

 

檢視是否登陸成功

 

檢視當前目錄是否有資料夾,沒有則建立一個input的資料夾

 

 建立成功後,上傳my.txt文字檔案,並檢視

 

 

 從分散式檔案系統HDFS中載入資料

 

 

 退出hdfs

 

3.通過並行集合(列表)建立RDD字串、陣列

 

 

二、 RDD操作

  •  filter(func)

  1. 傳入lambda匿名函式
  2. 顯式定義函式

  • map(func)

  1. 顯式定義函式
  2. lambda函式

 

 

 

a.字串分詞

 

 

 

b.數字加100

 

 

 

c.客串加固定字首

 

 

 

  • flatMap(func)

1.分詞

 

 

 

2.單詞對映成鍵值對

 

 

 

  • reduceByKey()

1.統計詞頻,累加

 

 

 

2.乘法規則

 

 

 

 

 groupByKey()

 

1.單詞分組

 

 

 

2.檢視分組的內容

 

 

 

3.分組之後做累加 map

 

sortBy()

  1. 詞頻統計按詞頻排序

 

行動操作

1.foreach(print)

 

 

foreach(lambda a:print(a.upper())

 

 

2.collect()

 

 

3.count()

 

 

4.take(n)

 

 

5.reduce()