Scala 系列（六）—— 常用集合型別之 List & Set

一、List字面量

List 是 Scala 中非常重要的一個數據結構，其與 Array(陣列) 非常類似，但是 List 是不可變的，和 Java 中的 List 一樣，其底層實現是連結串列。

scala>  val list = List("hadoop", "spark", "storm")
list: List[String] = List(hadoop, spark, storm)

// List 是不可變
scala> list(1) = "hive"
<console>:9: error: value update is not a member of List[String]

二、List型別

Scala 中 List 具有以下兩個特性：

同構 (homogeneous)：同一個 List 中的所有元素都必須是相同的型別；
協變 (covariant)：如果 S 是 T 的子型別，那麼 List[S] 就是 List[T] 的子型別，例如 List[String] 是 List[Object] 的子型別。

需要特別說明的是空列表的型別為 List[Nothing]：

scala> List()
res1: List[Nothing] = List()

三、構建List

所有 List 都由兩個基本單元構成：Nil 和 ::(讀作"cons")。即列表要麼是空列表 (Nil)，要麼是由一個 head 加上一個 tail 組成，而 tail 又是一個 List。我們在上面使用的 List("hadoop", "spark", "storm")

最終也是被解釋為 "hadoop"::"spark":: "storm"::Nil。

scala>  val list01 = "hadoop"::"spark":: "storm"::Nil
list01: List[String] = List(hadoop, spark, storm)

// :: 操作符號是右結合的，所以上面的表示式和下面的等同
scala> val list02 = "hadoop"::("spark":: ("storm"::Nil))
list02: List[String] = List(hadoop, spark, storm)

四、模式匹配

Scala 支援展開列表以實現模式匹配。

scala>  val list = List("hadoop", "spark", "storm")
list: List[String] = List(hadoop, spark, storm)

scala> val List(a,b,c)=list
a: String = hadoop
b: String = spark
c: String = storm

如果只需要匹配部分內容，可以如下：

scala> val a::rest=list
a: String = hadoop
rest: List[String] = List(spark, storm)

五、列表的基本操作

5.1 常用方法

object ScalaApp extends App {

  val list = List("hadoop", "spark", "storm")

  // 1.列表是否為空
  list.isEmpty

  // 2.返回列表中的第一個元素
  list.head

  // 3.返回列表中除第一個元素外的所有元素 這裡輸出 List(spark, storm)
  list.tail

  // 4.tail 和 head 可以結合使用
  list.tail.head

  // 5.返回列表中的最後一個元素 與 head 相反
  list.init

  // 6.返回列表中除了最後一個元素之外的其他元素 與 tail 相反 這裡輸出 List(hadoop, spark)
  list.last

  // 7.使用下標訪問元素
  list(2)

  // 8.獲取列表長度
  list.length

  // 9. 反轉列表
  list.reverse

}

5.2 indices

indices 方法返回所有下標。

scala> list.indices
res2: scala.collection.immutable.Range = Range(0, 1, 2)

5.3 take & drop & splitAt

take：獲取前 n 個元素；
drop：刪除前 n 個元素；
splitAt：從第幾個位置開始拆分。

scala> list take 2
res3: List[String] = List(hadoop, spark)

scala> list drop 2
res4: List[String] = List(storm)

scala> list splitAt 2
res5: (List[String], List[String]) = (List(hadoop, spark),List(storm))

5.4 flatten

flatten 接收一個由列表組成的列表，並將其進行扁平化操作，返回單個列表。

scala>  List(List(1, 2), List(3), List(), List(4, 5)).flatten
res6: List[Int] = List(1, 2, 3, 4, 5)

5.5 zip & unzip

對兩個 List 執行 zip 操作結果如下，返回對應位置元素組成的元組的列表，unzip 則執行反向操作。

scala> val list = List("hadoop", "spark", "storm")
scala> val score = List(10,20,30)

scala> val zipped=list zip score
zipped: List[(String, Int)] = List((hadoop,10), (spark,20), (storm,30))

scala> zipped.unzip
res7: (List[String], List[Int]) = (List(hadoop, spark, storm),List(10, 20, 30))

5.6 toString & mkString

toString 返回 List 的字串表現形式。

scala> list.toString
res8: String = List(hadoop, spark, storm)

如果想改變 List 的字串表現形式，可以使用 mkString。mkString 有三個過載方法，方法定義如下：

// start：字首  sep：分隔符  end:字尾
def mkString(start: String, sep: String, end: String): String =
  addString(new StringBuilder(), start, sep, end).toString

// seq 分隔符
def mkString(sep: String): String = mkString("", sep, "")

// 如果不指定分隔符 預設使用""分隔
def mkString: String = mkString("")

使用示例如下：

scala> list.mkString
res9: String = hadoopsparkstorm

scala>  list.mkString(",")
res10: String = hadoop,spark,storm

scala> list.mkString("{",",","}")
res11: String = {hadoop,spark,storm}

5.7 iterator & toArray & copyToArray

iterator 方法返回的是迭代器，這和其他語言的使用是一樣的。

object ScalaApp extends App {

  val list = List("hadoop", "spark", "storm")

  val iterator: Iterator[String] = list.iterator

  while (iterator.hasNext) {
    println(iterator.next)
  }
  
}

toArray 和 toList 用於 List 和陣列之間的互相轉換。

scala> val array = list.toArray
array: Array[String] = Array(hadoop, spark, storm)

scala> array.toList
res13: List[String] = List(hadoop, spark, storm)

copyToArray 將 List 中的元素拷貝到陣列中指定位置。

object ScalaApp extends App {

  val list = List("hadoop", "spark", "storm")
  val array = Array("10", "20", "30")

  list.copyToArray(array,1)

  println(array.toBuffer)
}

// 輸出 ：ArrayBuffer(10, hadoop, spark)

六、列表的高階操作

6.1 列表轉換：map & flatMap & foreach

map 與 Java 8 函數語言程式設計中的 map 類似，都是對 List 中每一個元素執行指定操作。

scala> List(1,2,3).map(_+10)
res15: List[Int] = List(11, 12, 13)

flatMap 與 map 類似，但如果 List 中的元素還是 List，則會對其進行 flatten 操作。

scala> list.map(_.toList)
res16: List[List[Char]] = List(List(h, a, d, o, o, p), List(s, p, a, r, k), List(s, t, o, r, m))

scala> list.flatMap(_.toList)
res17: List[Char] = List(h, a, d, o, o, p, s, p, a, r, k, s, t, o, r, m)

foreach 要求右側的操作是一個返回值為 Unit 的函式，你也可以簡單理解為執行一段沒有返回值程式碼。

scala> var sum = 0
sum: Int = 0

scala> List(1, 2, 3, 4, 5) foreach (sum += _)

scala> sum
res19: Int = 15

6.2 列表過濾：filter & partition & find & takeWhile & dropWhile & span

filter 用於篩選滿足條件元素，返回新的 List。

scala> List(1, 2, 3, 4, 5) filter (_ % 2 == 0)
res20: List[Int] = List(2, 4)

partition 會按照篩選條件對元素進行分組，返回型別是 tuple(元組)。

scala> List(1, 2, 3, 4, 5) partition (_ % 2 == 0)
res21: (List[Int], List[Int]) = (List(2, 4),List(1, 3, 5))

find 查詢第一個滿足條件的值，由於可能並不存在這樣的值，所以返回型別是 Option，可以通過 getOrElse 在不存在滿足條件值的情況下返回預設值。

scala> List(1, 2, 3, 4, 5) find (_ % 2 == 0)
res22: Option[Int] = Some(2)

val result: Option[Int] = List(1, 2, 3, 4, 5) find (_ % 2 == 0)
result.getOrElse(10)

takeWhile 遍歷元素，直到遇到第一個不符合條件的值則結束遍歷，返回所有遍歷到的值。

scala> List(1, 2, 3, -4, 5) takeWhile (_ > 0)
res23: List[Int] = List(1, 2, 3)

dropWhile 遍歷元素，直到遇到第一個不符合條件的值則結束遍歷，返回所有未遍歷到的值。

// 第一個值就不滿足條件,所以返回列表中所有的值
scala> List(1, 2, 3, -4, 5) dropWhile  (_ < 0)
res24: List[Int] = List(1, 2, 3, -4, 5)


scala> List(1, 2, 3, -4, 5) dropWhile (_ < 3)
res26: List[Int] = List(3, -4, 5)

span 遍歷元素，直到遇到第一個不符合條件的值則結束遍歷，將遍歷到的值和未遍歷到的值分別放入兩個 List 中返回，返回型別是 tuple(元組)。

scala> List(1, 2, 3, -4, 5) span (_ > 0)
res27: (List[Int], List[Int]) = (List(1, 2, 3),List(-4, 5))

6.3 列表檢查：forall & exists

forall 檢查 List 中所有元素，如果所有元素都滿足條件，則返回 true。

scala> List(1, 2, 3, -4, 5) forall ( _ > 0 )
res28: Boolean = false

exists 檢查 List 中的元素，如果某個元素已經滿足條件，則返回 true。

scala>  List(1, 2, 3, -4, 5) exists (_ > 0 )
res29: Boolean = true

6.4 列表排序：sortWith

sortWith 對 List 中所有元素按照指定規則進行排序，由於 List 是不可變的，所以排序返回一個新的 List。

scala> List(1, -3, 4, 2, 6) sortWith (_ < _)
res30: List[Int] = List(-3, 1, 2, 4, 6)

scala> val list = List( "hive","spark","azkaban","hadoop")
list: List[String] = List(hive, spark, azkaban, hadoop)

scala> list.sortWith(_.length>_.length)
res33: List[String] = List(azkaban, hadoop, spark, hive)

七、List物件的方法

上面介紹的所有方法都是 List 類上的方法，下面介紹的是 List 伴生物件中的方法。

7.1 List.range

List.range 可以產生指定的前閉後開區間內的值組成的 List，它有三個可選引數: start(開始值)，end(結束值，不包含)，step(步長)。

scala>  List.range(1, 5)
res34: List[Int] = List(1, 2, 3, 4)

scala> List.range(1, 9, 2)
res35: List[Int] = List(1, 3, 5, 7)

scala> List.range(9, 1, -3)
res36: List[Int] = List(9, 6, 3)

7.2 List.fill

List.fill 使用指定值填充 List。

scala> List.fill(3)("hello")
res37: List[String] = List(hello, hello, hello)

scala> List.fill(2,3)("world")
res38: List[List[String]] = List(List(world, world, world), List(world, world, world))

7.3 List.concat

List.concat 用於拼接多個 List。

scala> List.concat(List('a', 'b'), List('c'))
res39: List[Char] = List(a, b, c)

scala> List.concat(List(), List('b'), List('c'))
res40: List[Char] = List(b, c)

scala> List.concat()
res41: List[Nothing] = List()

八、處理多個List

當多個 List 被放入同一個 tuple 中時候，可以通過 zipped 對多個 List 進行關聯處理。

// 兩個 List 對應位置的元素相乘
scala> (List(10, 20), List(3, 4, 5)).zipped.map(_ * _)
res42: List[Int] = List(30, 80)

// 三個 List 的操作也是一樣的
scala> (List(10, 20), List(3, 4, 5), List(100, 200)).zipped.map(_ * _ + _)
res43: List[Int] = List(130, 280)

// 判斷第一個 List 中元素的長度與第二個 List 中元素的值是否相等
scala>  (List("abc", "de"), List(3, 2)).zipped.forall(_.length == _)
res44: Boolean = true

九、緩衝列表ListBuffer

上面介紹的 List，由於其底層實現是連結串列，這意味著能快速訪問 List 頭部元素，但對尾部元素的訪問則比較低效，這時候可以採用 ListBuffer，ListBuffer 提供了在常量時間內往頭部和尾部追加元素。

import scala.collection.mutable.ListBuffer

object ScalaApp extends App {

  val buffer = new ListBuffer[Int]
  // 1.在尾部追加元素
  buffer += 1
  buffer += 2
  // 2.在頭部追加元素
  3 +=: buffer
  // 3. ListBuffer 轉 List
  val list: List[Int] = buffer.toList
  println(list)
}

//輸出：List(3, 1, 2)

十、集(Set)

Set 是不重複元素的集合。分為可變 Set 和不可變 Set。

10.1 可變Set

object ScalaApp extends App {

  // 可變 Set
  val mutableSet = new collection.mutable.HashSet[Int]

  // 1.新增元素
  mutableSet.add(1)
  mutableSet.add(2)
  mutableSet.add(3)
  mutableSet.add(3)
  mutableSet.add(4)

  // 2.移除元素
  mutableSet.remove(2)
  
  // 3.呼叫 mkString 方法 輸出 1,3,4
  println(mutableSet.mkString(","))

  // 4. 獲取 Set 中最小元素
  println(mutableSet.min)

  // 5. 獲取 Set 中最大元素
  println(mutableSet.max)

}

10.2 不可變Set

不可變 Set 沒有 add 方法，可以使用 + 新增元素，但是此時會返回一個新的不可變 Set，原來的 Set 不變。

object ScalaApp extends App {
  
  // 不可變 Set
  val immutableSet = new collection.immutable.HashSet[Int]

  val ints: HashSet[Int] = immutableSet+1

  println(ints)

}

// 輸出 Set(1)

10.3 Set間操作

多個 Set 之間可以進行求交集或者合集等操作。

object ScalaApp extends App {

  // 宣告有序 Set
  val mutableSet = collection.mutable.SortedSet(1, 2, 3, 4, 5)
  val immutableSet = collection.immutable.SortedSet(3, 4, 5, 6, 7)
  
  // 兩個 Set 的合集  輸出：TreeSet(1, 2, 3, 4, 5, 6, 7)
  println(mutableSet ++ immutableSet)

  // 兩個 Set 的交集  輸出：TreeSet(3, 4, 5)
  println(mutableSet intersect immutableSet)

}

參考資料

Martin Odersky . Scala 程式設計 (第 3 版)[M] . 電子工業出版社 . 2018-1-1
凱.S.霍斯特曼 . 快學 Scala(第 2 版)[M] . 電子工業出版社 . 2017-7

更多大資料系列文章可以參見 GitHub 開源專案：大資料入門指南

相關推薦

Scala 系列（六）—— 常用集合型別之 List & Set

一、List字面量 List 是 Scala 中非常重要的一個數據結構，其與 Array(陣列) 非常類似，但是 List 是不可變的，和 Java 中的 List 一樣，其底層實現是連結串列。 scala> val list = List("hadoop", "spar

Scala 系列（二）—— 基本資料型別和運算子

一、資料型別 1.1 型別支援 Scala 擁有下表所示的資料型別，其中 Byte、Short、Int、Long 和 Char 型別統稱為整數型別，整數型別加上 Float 和 Double 統稱為數值型別。Scala 數值型別的取值範圍和 Java 對應型別的取值範圍相同。資料型別描述 B

實例學習ansible系列（8）常用模塊之user/group

sys 人工智能 pretty http mov spa 添加用戶老師 ups 知識點：user模塊，用於管理用戶。知識點：group模塊，用於管理group。使用user模塊添加用戶 [root@host31 ~]# ansible host32 -m

Scala入門系列（六）：面向對象之object

所有 name 應用 eight lac box dfa port clas object Person { private var eyeNum = 2 println("this Person object") def getEyeNum = eyeNum

Docker快速入門系列（六）——Docker常用命令之映象命令

《 Docker常用命令之映象命令》前言在前面的文章中進行了Docker的安裝和配置，在接下來的文章中將對 Docker 的常用命令進行介紹，本篇先從最基本的 “

常用開發技巧系列（六）

一：關於UIColor 自己在平時的工作中用到幾個比較好的UIColor的類別，分享出來： 1、 UIColor 初始化關於 Hex (16進位制的可以的) 比如我們 #FFFFFF 等怎麼初始化一個UIColor,在iOS中是沒有直接的方法初始化的，所

物聯網平臺構架系列（六）：Amazon, Microsoft, IBM IoT 解決方案導論之結語

物聯網; iot; aws; 亞馬遜; greengrass;microsoft; azure;ibm; watson; bluemix最近研究了一些物聯網平臺技術資料，以做選型參考。腦子裏積累大量信息，便想寫出來做一些普及。作為科普文章，力爭通俗易懂，不確保概念嚴謹性。我會給考據癖者提供相關英文鏈接，以便深

elasticsearch系列（六）備份

indices stat 必須 tor 信息操作 accepted gui 配置快照備份 1.創建文件倉庫 1.1 在$ELASTICSEARCH_HOME/config/elasticsearch.yaml中增加配置 #這個路徑elasticsearch必須有權限訪問

Linq To Sql進階系列（六）用object的動態查詢與保存log篇

directory ont 簡單 lambda表達式 bind add dbo 所有生成動態的生成sql語句，根據不同的條件構造不同的where字句，是拼接sql 字符串的好處。而Linq的推出，是為了彌補編程中的 Data != Object 的問題。我們又該如何實現

【原創】源碼角度分析Android的消息機制系列（六）——Handler的工作原理

urn long empty isa pat stat 開啟 it is performed ι 版權聲明：本文為博主原創文章，未經博主允許不得轉載。先看Handler的定義： /** * A Handler allows you to send and proc

C語言學習系列（六）存儲類

amp 限制 () 存儲 col print strong .com 學習一、C存儲類存儲類定義C程序中變量/函數的範圍（可見性）和生命周期。這些說明符放置在他們所修飾的類型之前。for example：auto、register、static、extern。（一）、

C語言學習系列（六）基本語法

xor 12px 左移程序 str 繼續 p s type false 一、C運算符算術運算符（語法和java類似或基本一樣略過不再描述）關系運算符（略）邏輯運算符（略）位運算符運算符描述實例 & 如果同時存在於兩個操作數中，二

Python操作rabbitmq系列（六）:進行RPC調用

block 異常遠程轉換調用成了 mage chang 多少此刻，我們已經進入第6章，是官方的最後一個環節，但是，並非本系列的最後一個環節。因為在實戰中還有一些經驗教訓，並沒體現出來。由於馬上要給同事沒培訓celery了。我也來不及寫太多。等後面，我們再慢慢補充。

IT輪子系列（六）——Excel上傳與解析，一套代碼解決所有Excel業務上傳，你Get到了嗎

tryparse mappath src 個推列名 import ges bject tab 前言在日常開發當中，excel的上傳與解析是很常見的。根據業務不同，解析的數據模型也都不一樣。不同的數據模型也就需要不同的校驗邏輯，這往往需要寫多套的代碼進行字段的檢驗，如必填

Docker入門與應用系列（六）Docker私有與公共鏡像倉庫

nbsp one 默認 span epo refers 1.8 png list 1.搭建私有鏡像倉庫Docker Hub作為Docker默認官方公共鏡像；如果想搭建自己的私有鏡像倉庫，官方提供registry鏡像，使搭建私有倉庫非常簡單1.1.1下載registry鏡像並

SSM框架開發web項目系列（六） SpringMVC入門

商品 rwx tmx quest npv you odm pci vdp 　　前言　　我們最初的javaSE部分學習後，基本算是入門了，也熟悉了Java的語法和一些常用API，然後再深入到數據庫操作、WEB程序開發，漸漸會接觸到JDBC、Servlet/Jsp之類的知識，

Tokyo Tyrant（TTServer）系列（六）－數據丟失誰的錯

內存數據庫 emca aps csdn AC cell class mon cached 前面的一些文章講到了memcache以及TT。memcache內存數據庫非常

vue 開發系列（六）企業微信整合

狀態 choose tin getent reset .post hal imp random 概述手機端程序可以和企業微信進行整合，我們也可以使用企業微信JSSDK功能，實現一些原生的功能。整合步驟在整合之前需要閱讀整合步驟。 http://work

Java 設計模式系列（六）適配器模式

建議技術 amp （六） image 必須一起 nts 工作 Java 設計模式系列（六）適配器模式適配器模式把一個類的接口變換成客戶端所期待的另一種接口，從而使原本因接口不匹配而無法在一起工作的兩個類能夠在一起工作。適配器模式的結構：類的適配器模式對象的

Greeplum 系列（六）備份與恢復

移除 cat eat 適合主機 pdb SQ 簡單 mail Greeplum 系列（六）備份與恢復一、備份 1.1 並行備份(gp_dump) GP 同時備份 Master 和所有活動的 Segment 實例，備份消耗的時間與系統中實例的數量沒有關系。在 Maste