簡潔又快速地處理集合——Java8 Stream(下)
本篇文章主要內容:
- 一種特化形式的流——數值流
- Optional 類
- 如何構建一個流
- collect 方法
- 並行流相關問題
一. 數值流
前面介紹的如int sum = list.stream().map(Person::getAge).reduce(0, Integer::sum);
計算元素總和的方法其中暗含了裝箱成本,map(Person::getAge)
方法過後流變成了 Stream<Integer> 型別,而每個 Integer 都要拆箱成一個原始型別再進行 sum 方法求和,這樣大大影響了效率。
針對這個問題 Java 8 有良心地引入了數值流 IntStream, DoubleStream, LongStream,這種流中的元素都是原始資料型別,分別是 int,double,long
1. 流與數值流的轉換
流轉換為數值流
- mapToInt(T -> int) : return IntStream
- mapToDouble(T -> double) : return DoubleStream
- mapToLong(T -> long) : return LongStream
IntStream intStream = list.stream().mapToInt(Person::getAge);
當然如果是下面這樣便會出錯
LongStream longStream = list.stream().mapToInt(Person::getAge);
因為 getAge 方法返回的是 int 型別(返回的如果是 Integer,一樣可以轉換為 IntStream)
數值流轉換為流
很簡單,就一個 boxed
Stream<Integer> stream = intStream.boxed();
2. 數值流方法
下面這些方法作用不用多說,看名字就知道:
- sum()
- max()
- min()
- average() 等...
3. 數值範圍
IntStream 與 LongStream 擁有 range 和 rangeClosed 方法用於數值範圍處理
- IntStream : rangeClosed(int, int) / range(int, int)
- LongStream : rangeClosed(long, long) / range(long, long)
這兩個方法的區別在於一個是閉區間,一個是半開半閉區間:
- rangeClosed(1, 100) :[1, 100]
- range(1, 100) :[1, 100)
我們可以利用 IntStream.rangeClosed(1, 100)
生成 1 到 100 的數值流
求 1 到 10 的數值總和:
IntStream intStream = IntStream.rangeClosed(1, 10);
int sum = intStream.sum();
二. Optional 類
NullPointerException 可以說是每一個 Java 程式設計師都非常討厭看到的一個詞,針對這個問題, Java 8 引入了一個新的容器類 Optional,可以代表一個值存在或不存在,這樣就不用返回容易出問題的 null。之前文章的程式碼中就經常出現這個類,也是針對這個問題進行的改進。
Optional 類比較常用的幾個方法有:
- isPresent() :值存在時返回 true,反之 flase
- get() :返回當前值,若值不存在會丟擲異常
- orElse(T) :值存在時返回該值,否則返回 T 的值
Optional 類還有三個特化版本 OptionalInt,OptionalLong,OptionalDouble,剛剛講到的數值流中的 max 方法返回的型別便是這個
Optional 類其中其實還有很多學問,講解它說不定也要開一篇文章,這裡先講那麼多,先知道基本怎麼用就可以。
三. 構建流
之前我們得到一個流是通過一個原始資料來源轉換而來,其實我們還可以直接構建得到流。
1. 值建立流
- Stream.of(T...) : Stream.of("aa", "bb") 生成流
生成一個字串流
Stream<String> stream = Stream.of("aaa", "bbb", "ccc");
- Stream.empty() : 生成空流
2. 陣列建立流
根據引數的陣列型別建立對應的流:
- Arrays.stream(T[ ])
- Arrays.stream(int[ ])
- Arrays.stream(double[ ])
- Arrays.stream(long[ ])
值得注意的是,還可以規定只取陣列的某部分,用到的是Arrays.stream(T[], int, int)
只取索引第 1 到第 2 位的:
int[] a = {1, 2, 3, 4};
Arrays.stream(a, 1, 3).forEach(System.out :: println);
列印 2 ,3
3. 檔案生成流
Stream<String> stream = Files.lines(Paths.get("data.txt"));
每個元素是給定檔案的其中一行
4. 函式生成流
兩個方法:
- iterate : 依次對每個新生成的值應用函式
- generate :接受一個函式,生成一個新的值
Stream.iterate(0, n -> n + 2)
生成流,首元素為 0,之後依次加 2
Stream.generate(Math :: random)
生成流,為 0 到 1 的隨機雙精度數
Stream.generate(() -> 1)
生成流,元素全為 1
四. collect 收集資料
coollect 方法作為終端操作,接受的是一個 Collector 介面引數,能對資料進行一些收集歸總操作
1. 收集
最常用的方法,把流中所有元素收集到一個 List, Set 或 Collection 中
- toList
- toSet
- toCollection
- toMap
List newlist = list.stream.collect(toList());
//如果 Map 的 Key 重複了,可是會報錯的哦
Map<Integer, Person> map = list.stream().collect(toMap(Person::getAge, p -> p));
2. 彙總
(1)counting
用於計算總和:
long l = list.stream().collect(counting());
沒錯,你應該想到了,下面這樣也可以:
long l = list.stream().count();
推薦第二種
(2)summingInt ,summingLong ,summingDouble
summing,沒錯,也是計算總和,不過這裡需要一個函式引數
計算 Person 年齡總和:
int sum = list.stream().collect(summingInt(Person::getAge));
當然,這個可以也簡化為:
int sum = list.stream().mapToInt(Person::getAge).sum();
除了上面兩種,其實還可以:
int sum = list.stream().map(Person::getAge).reduce(Interger::sum).get();
推薦第二種
由此可見,函數語言程式設計通常提供了多種方式來完成同一種操作
(3)averagingInt,averagingLong,averagingDouble
看名字就知道,求平均數
Double average = list.stream().collect(averagingInt(Person::getAge));
當然也可以這樣寫
OptionalDouble average = list.stream().mapToInt(Person::getAge).average();
不過要注意的是,這兩種返回的值是不同型別的
(4)summarizingInt,summarizingLong,summarizingDouble
這三個方法比較特殊,比如 summarizingInt 會返回 IntSummaryStatistics 型別
IntSummaryStatistics l = list.stream().collect(summarizingInt(Person::getAge));
IntSummaryStatistics 包含了計算出來的平均值,總數,總和,最值,可以通過下面這些方法獲得相應的資料
3. 取最值
maxBy,minBy 兩個方法,需要一個 Comparator 介面作為引數
Optional<Person> optional = list.stream().collect(maxBy(comparing(Person::getAge)));
我們也可以直接使用 max 方法獲得同樣的結果
Optional<Person> optional = list.stream().max(comparing(Person::getAge));
4. joining 連線字串
也是一個比較常用的方法,對流裡面的字串元素進行連線,其底層實現用的是專門用於字串連線的 StringBuilder
String s = list.stream().map(Person::getName).collect(joining());
結果:jackmiketom
String s = list.stream().map(Person::getName).collect(joining(","));
結果:jack,mike,tom
joining 還有一個比較特別的過載方法:
String s = list.stream().map(Person::getName).collect(joining(" and ", "Today ", " play games."));
結果:Today jack and mike and tom play games.
即 Today 放開頭,play games. 放結尾,and 在中間連線各個字串
5. groupingBy 分組
groupingBy 用於將資料分組,最終返回一個 Map 型別
Map<Integer, List<Person>> map = list.stream().collect(groupingBy(Person::getAge));
例子中我們按照年齡 age 分組,每一個 Person 物件中年齡相同的歸為一組
另外可以看出,Person::getAge
決定 Map 的鍵(Integer 型別),list 型別決定 Map 的值(List<Person> 型別)
多級分組
groupingBy 可以接受一個第二引數實現多級分組:
Map<Integer, Map<T, List<Person>>> map = list.stream().collect(groupingBy(Person::getAge, groupingBy(...)));
其中返回的 Map 鍵為 Integer 型別,值為 Map<T, List<Person>> 型別,即引數中 groupBy(...) 返回的型別
按組收集資料
Map<Integer, Integer> map = list.stream().collect(groupingBy(Person::getAge, summingInt(Person::getAge)));
該例子中,我們通過年齡進行分組,然後 summingInt(Person::getAge))
分別計算每一組的年齡總和(Integer),最終返回一個 Map<Integer, Integer>
根據這個方法,我們可以知道,前面我們寫的:
groupingBy(Person::getAge)
其實等同於:
groupingBy(Person::getAge, toList())
6. partitioningBy 分割槽
分割槽與分組的區別在於,分割槽是按照 true 和 false 來分的,因此partitioningBy 接受的引數的 lambda 也是 T -> boolean
根據年齡是否小於等於20來分割槽
Map<Boolean, List<Person>> map = list.stream()
.collect(partitioningBy(p -> p.getAge() <= 20));
列印輸出
{
false=[Person{name='mike', age=25}, Person{name='tom', age=30}],
true=[Person{name='jack', age=20}]
}
同樣地 partitioningBy 也可以新增一個收集器作為第二引數,進行類似 groupBy 的多重分割槽等等操作。
五. 並行
我們通過 list.stream()
將 List 型別轉換為流型別,我們還可以通過 list.parallelStream()
轉換為並行流。因此你通常可以使用 parallelStream 來代替 stream 方法
並行流就是把內容分成多個數據塊,使用不同的執行緒分別處理每個資料塊的流。這也是流的一大特點,要知道,在 Java 7 之前,並行處理資料集合是非常麻煩的,你得自己去將資料分割開,自己去分配執行緒,必要時還要確保同步避免競爭。
Stream 讓程式設計師能夠比較輕易地實現對資料集合的並行處理,但要注意的是,不是所有情況的適合,有些時候並行甚至比順序進行效率更低,而有時候因為執行緒安全問題,還可能導致資料的處理錯誤,這些我會在下一篇文章中講解。
比方說下面這個例子
int i = Stream.iterate(1, a -> a + 1).limit(100).parallel().reduce(0, Integer::sum);
我們通過這樣一行程式碼來計算 1 到 100 的所有數的和,我們使用了 parallel 來實現並行。
但實際上是,這樣的計算,效率是非常低的,比不使用並行還低!一方面是因為裝箱問題,這個前面也提到過,就不再贅述,還有一方面就是 iterate 方法很難把這些數分成多個獨立塊來並行執行,因此無形之中降低了效率。
流的可分解性
這就說到流的可分解性問題了,使用並行的時候,我們要注意流背後的資料結構是否易於分解。比如眾所周知的 ArrayList 和 LinkedList,明顯前者在分解方面佔優。
我們來看看一些資料來源的可分解性情況
資料來源 | 可分解性 |
---|---|
ArrayList | 極佳 |
LinkedList | 差 |
IntStream.range | 極佳 |
Stream.iterate | 差 |
HashSet | 好 |
TreeSet | 好 |
順序性
除了可分解性,和剛剛提到的裝箱問題,還有一點值得注意的是一些操作本身在並行流上的效能就比順序流要差,比如:limit,findFirst,因為這兩個方法會考慮元素的順序性,而並行本身就是違背順序性的,也是因為如此 findAny 一般比 findFirst 的效率要高。
六. 效率
最後再來談談效率問題,很多人可能聽說過有關 Stream 效率低下的問題。其實,對於一些簡單的操作,比如單純的遍歷,查詢最值等等,Stream 的效能的確會低於傳統的迴圈或者迭代器實現,甚至會低很多。
但是對於複雜的操作,比如一些複雜的物件歸約,Stream 的效能是可以和手動實現的效能匹敵的,在某些情況下使用並行流,效率可能還遠超手動實現。好鋼用在刀刃上,在適合的場景下使用,才能發揮其最大的用處。
函式式介面的出現主要是為了提高編碼開發效率以及增強程式碼可讀性;與此同時,在實際的開發中,並非總是要求非常高的效能,因此 Stream 與 lambda 的出現意義還是非常大的。
作者:Howie_Y
連結:https://www.jianshu.com/p/e429c517e9cb