scala學習筆記-集合操作(15)
阿新 • • 發佈:2018-12-18
Scala的集合體繫結構
1 // Scala中的集合體系主要包括:Iterable、Seq、Set、Map。其中Iterable是所有集合trait的根trai。這個結構與Java的集合體系非常相似。 2 3 // Scala中的集合是分成可變和不可變兩類集合的,其中可變集合就是說,集合的元素可以動態修改,而不可變集合的元素在初始化之後,就無法修改了。分別對應scala.collection.mutable和scala.collection.immutable兩個包。 4 5 // Seq下包含了Range、ArrayBuffer、List等子trait。其中Range就代表了一個序列,通常可以使用“1 to 10”這種語法來產生一個Range。 ArrayBuffer就類似於Java中的ArrayList。
List
1 // List代表一個不可變的列表 2 // List的建立,val list = List(1, 2, 3, 4) 3 // List有head和tail,head代表List的第一個元素,tail代表第一個元素之後的所有元素,list.head,list.tail 4 // List有特殊的::操作符,可以用於將head和tail合併成一個List,0 :: list 5 // ::這種操作符要清楚,在spark原始碼中都是有體現的,一定要能夠看懂! 6 // 如果一個List只有一個元素,那麼它的head就是這個元素,它的tail是Nil 7 8 // 案例:用遞迴函式來給List中每個元素都加上指定字首,並列印加上字首的元素 9 def decorator(l: List[Int], prefix: String) { 10 if (l != Nil) { 11 println(prefix + l.head) 12 decorator(l.tail, prefix) 13 } 14 }
LinkedList
1 // LinkedList代表一個可變的列表,使用elem可以引用其頭部,使用next可以引用其尾部 2 // val l = scala.collection.mutable.LinkedList(1, 2, 3, 4, 5); l.elem; l.next 3 4 // 案例:使用while迴圈將LinkedList中的每個元素都乘以2 5 val list = scala.collection.mutable.LinkedList(1, 2, 3, 4, 5) 6 var currentList = list 7 while (currentList != Nil) { 8 currentList.elem = currentList.elem * 2 9 currentList = currentList.next 10 } 11 12 // 案例:使用while迴圈將LinkedList中,從第一個元素開始,每隔一個元素,乘以2 13 val list = scala.collection.mutable.LinkedList(1, 2, 3, 4, 5, 6, 7, 8, 9, 10) 14 var currentList = list 15 var first = true 16 while (currentList != Nil && currentList.next != Nil) { 17 if (first) { currentList.elem = currentList.elem * 2; first = false } 18 currentList = currentList.next.next 19 if (currentList != Nil) currentList.elem = currentList.elem * 2 20 }
Set
1 // Set代表一個沒有重複元素的集合 2 // 將重複元素加入Set是沒有用的,比如val s = Set(1, 2, 3); s + 1; s + 4 3 // 而且Set是不保證插入順序的,也就是說,Set中的元素是亂序的,val s = new scala.collection.mutable.HashSet[Int](); s += 1; s += 2; s += 5 4 5 // LinkedHashSet會用一個連結串列維護插入順序,val s = new scala.collection.mutable.LinkedHashSet[Int](); i += 1; s += 2; s += 5 6 7 // SrotedSet會自動根據key來進行排序,val s = scala.collection.mutable.SortedSet("orange", "apple", "banana")
集合的函數語言程式設計
1 // 集合的函數語言程式設計非常非常非常之重要!!! 2 // 必須完全掌握和理解Scala的高階函式是什麼意思,Scala的集合類的map、flatMap、reduce、reduceLeft、foreach等這些函式,就是高階函式,因為可以接收其他函式作為引數 3 // 高階函式的使用,也是Scala與Java最大的一點不同!!!因為Java裡面是沒有函數語言程式設計的,也肯定沒有高階函式,也肯定無法直接將函式傳入一個方法,或者讓一個方法返回一個函式 4 // 對Scala高階函式的理解、掌握和使用,可以大大增強你的技術,而且也是Scala最有誘惑力、最有優勢的一個功能!!! 5 // 此外,在Spark原始碼中,有大量的函數語言程式設計,以及基於集合的高階函式的使用!!!所以必須掌握,才能看懂spark原始碼 6 7 // map案例實戰:為List中每個元素都新增一個字首 8 List("Leo", "Jen", "Peter", "Jack").map("name is " + _) 9 10 // faltMap案例實戰:將List中的多行句子拆分成單詞 11 List("Hello World", "You Me").flatMap(_.split(" ")) 12 13 // foreach案例實戰:列印List中的每個單詞 14 List("I", "have", "a", "beautiful", "house").foreach(println(_)) 15 16 // zip案例實戰:對學生姓名和學生成績進行關聯 17 List("Leo", "Jen", "Peter", "Jack").zip(List(100, 90, 75, 83))
函數語言程式設計綜合案例:統計多個文字內的單詞總數
1 // 使用scala的io包將文字檔案內的資料讀取出來 2 val lines01 = scala.io.Source.fromFile("C://Users//Administrator//Desktop//test01.txt").mkString 3 val lines02 = scala.io.Source.fromFile("C://Users//Administrator//Desktop//test02.txt").mkString 4 // 使用List的伴生物件,將多個檔案內的內容建立為一個List 5 val lines = List(lines01, lines02) 6 7 // 下面這一行才是我們的案例的核心和重點,因為有多個高階函式的鏈式呼叫,以及大量下劃線的使用,如果沒有透徹掌握之前的課講解的Scala函數語言程式設計,那麼下面這一行程式碼,完全可能會看不懂!!! 8 // 但是下面這行程式碼其實就是Scala程式設計的精髓所在,就是函數語言程式設計,也是Scala相較於Java等程式語言最大的功能優勢所在 9 // 而且,spark的原始碼中大量使用了這種複雜的鏈式呼叫的函數語言程式設計 10 // 而且,spark本身提供的開發人員使用的程式設計api的風格,完全沿用了Scala的函數語言程式設計,比如Spark自身的api中就提供了map、flatMap、reduce、foreach,以及更高階的reduceByKey、groupByKey等高階函式 11 // 如果要使用Scala進行spark工程的開發,那麼就必須掌握這種複雜的高階函式的鏈式呼叫!!! 12 13 lines.flatMap(_.split(" ")).map((_, 1)).map(_._2).reduceLeft(_ + _)