1. 程式人生 > >spark【例子】倒排索引(InvertedIndex)

spark【例子】倒排索引(InvertedIndex)

例子描述:

【倒排索引(InvertedIndex)】

這個例子是在一本講Spark書中看到的,但是樣例程式碼寫的太Java化,沒有函數語言程式設計風格,於是問了些高手,教我寫了份函式式的倒排索引。 
這段程式碼,我在剛開始學的時候很難想到二次拆分資料,所以這個難點挺不錯的。

原始資料 
cx1|a,b,c,d,e,f 
cx2|c,d,e,f 
cx3|a,b,c,f 
cx4|a,b,c,d,e,f 
cx5|a,b,e,f 
cx6|a,b,c,d 
cx7|a,b,c,f 
cx8|d,e,f 
cx9|b,c,d,e,f

結果資料 
d|cx1,cx2,cx4,cx6,cx8,cx9 
e|cx1,cx2,cx4,cx5,cx8,cx9 
a|cx1,cx3,cx4,cx5,cx6,cx7 
b|cx1,cx3,cx4,cx5,cx6,cx7,cx9 
f|cx1,cx2,cx3,cx4,cx5,cx7,cx8,cx9 
c|cx1,cx2,cx3,cx4,cx6,cx7,cx9

程式碼片段:

/* 倒排索引InvertedIndex */

val source = Source.fromFile("E:/cxsvn/txt/dp.txt").getLines.toArray
val cxRDD0 = sc.parallelize(source)                        /* spark單機讀取資料 */

cxRDD0.flatMap {
  lines =>
    val line = lines.split("\\|", -1)                      /* 拆分資料,以豎槓為拆分條件 */
    line(1).split(","
, -1).map { /* 再對拆分後的資料,進行第二次拆分 */ v => (v, line(0)) /* 拼接資料 */ } }.groupByKey() /* 分組 */ .sortBy(_._1,true) /* 排序 */ .foreach(x => println(s"${x._1}|${x._2.mkString("
,")}")) /* 格式化輸出 */
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15