WDA基礎十四:ALV欄位屬性配置表
阿新 • • 發佈:2022-03-17
一、 RDD建立
1.從本地檔案系統中載入資料建立RDD
驗證本地檔案系統是否建立成功
2.從HDFS載入資料建立RDD
登入hdfs
檢視是否登陸成功
檢視當前目錄是否有資料夾,沒有則建立一個input的資料夾
建立成功後,上傳my.txt文字檔案,並檢視
從分散式檔案系統HDFS中載入資料
退出hdfs
3.通過並行集合(列表)建立RDD字串、陣列
二、 RDD操作
-
filter(func)
- 傳入lambda匿名函式
- 顯式定義函式
-
map(func)
- 顯式定義函式
- lambda函式
a.字串分詞
b.數字加100
c.客串加固定字首
-
flatMap(func)
1.分詞
2.單詞對映成鍵值對
-
reduceByKey()
1.統計詞頻,累加
2.乘法規則
groupByKey()
1.單詞分組
2.檢視分組的內容
3.分組之後做累加 map
sortBy()
- 詞頻統計按詞頻排序
行動操作
1.foreach(print)
foreach(lambda a:print(a.upper())
2.collect()
3.count()
4.take(n)
5.reduce()