spark【例子】倒排索引(InvertedIndex)
阿新 • • 發佈:2018-12-22
例子描述:
【倒排索引(InvertedIndex)】
這個例子是在一本講Spark書中看到的,但是樣例程式碼寫的太Java化,沒有函數語言程式設計風格,於是問了些高手,教我寫了份函式式的倒排索引。
這段程式碼,我在剛開始學的時候很難想到二次拆分資料,所以這個難點挺不錯的。
原始資料
cx1|a,b,c,d,e,f
cx2|c,d,e,f
cx3|a,b,c,f
cx4|a,b,c,d,e,f
cx5|a,b,e,f
cx6|a,b,c,d
cx7|a,b,c,f
cx8|d,e,f
cx9|b,c,d,e,f
結果資料
d|cx1,cx2,cx4,cx6,cx8,cx9
e|cx1,cx2,cx4,cx5,cx8,cx9
a|cx1,cx3,cx4,cx5,cx6,cx7
b|cx1,cx3,cx4,cx5,cx6,cx7,cx9
f|cx1,cx2,cx3,cx4,cx5,cx7,cx8,cx9
c|cx1,cx2,cx3,cx4,cx6,cx7,cx9
程式碼片段:
/* 倒排索引InvertedIndex */
val source = Source.fromFile("E:/cxsvn/txt/dp.txt").getLines.toArray
val cxRDD0 = sc.parallelize(source) /* spark單機讀取資料 */
cxRDD0.flatMap {
lines =>
val line = lines.split("\\|", -1) /* 拆分資料,以豎槓為拆分條件 */
line(1).split("," , -1).map { /* 再對拆分後的資料,進行第二次拆分 */
v =>
(v, line(0)) /* 拼接資料 */
}
}.groupByKey() /* 分組 */
.sortBy(_._1,true) /* 排序 */
.foreach(x => println(s"${x._1}|${x._2.mkString(" ,")}")) /* 格式化輸出 */
- 1
- 2
- 3
- 4
- 5
- 6
- 7
- 8
- 9
- 10
- 11
- 12
- 13
- 14
- 15
- 1
- 2
- 3
- 4
- 5
- 6
- 7
- 8
- 9
- 10
- 11
- 12
- 13
- 14
- 15