PHP中被忽略的效能優化利器:生成器
如果是做Python或者其他語言的小夥伴,對於生成器應該不陌生。但很多PHP開發者或許都不知道生成器這個功能,可能是因為生成器是PHP 5.5.0才引入的功能,也可以是生成器作用不是很明顯。但是,生成器功能的確非常有用。
優點
直接講概念估計你聽完還是一頭霧水,所以我們先來說說優點,也許能勾起你的興趣。那麼生成器有哪些優點,如下:
- 生成器會對PHP應用的效能有非常大的影響
- PHP程式碼執行時節省大量的記憶體
- 比較適合計算大量的資料
那麼,這些神奇的功能究竟是如何做到的?我們先來舉個例子。
概念引入
首先,放下生成器概念的包袱,來看一個簡單的PHP函式:
function createRange($number){
$data = [];
for($i=0;$i<$number;$i++){
$data[] = time();
}
return $data;
}
這是一個非常常見的PHP函式,我們在處理一些陣列的時候經常會使用。這裡的程式碼也非常簡單:
- 我們建立一個函式。
- 函式內包含一個
for
迴圈,我們迴圈的把當前時間放到$data
裡面 for
迴圈執行完畢,把$data
返回出去。
下面沒完,我們繼續。我們再寫一個函式,把這個函式的返回值迴圈打印出來:
$result = createRange(10); // 這裡呼叫上面我們建立的函式
foreach($result as $value){
sleep(1);//這裡停頓1秒,我們後續有用
echo $value.'<br />';
}
我們在瀏覽器裡面看一下執行結果:
這裡非常完美,沒有任何問題。(當然sleep(1)
思考一個問題
我們注意到,在呼叫函式createRange
的時候給$number
的傳值是10,一個很小的數字。假設,現在傳遞一個值10000000
(1000萬)。
那麼,在函式createRange
裡面,for
迴圈就需要執行1000
萬次。且有1000
萬個值被放到$data
裡面,而$data
陣列在是被放在記憶體內。所以,在呼叫函式時候會佔用大量記憶體。
這裡,生成器就可以大顯身手了。
建立生成器
我們直接修改程式碼,你們注意觀察:
function createRange($number){
for($i=0;$i<$number;$i++){
yield time();
}
}
看下這段和剛剛很像的程式碼,我們刪除了陣列$data
,而且也沒有返回任何內容,而是在time()
之前使用了一個關鍵字yield
使用生成器
我們再執行一下第二段程式碼:
$result = createRange(10); // 這裡呼叫上面我們建立的函式
foreach($result as $value){
sleep(1);
echo $value.'<br />';
}
我們奇蹟般的發現了,輸出的值和第一次沒有使用生成器的不一樣。這裡的值(時間戳)中間間隔了1秒。
這裡的間隔一秒其實就是sleep(1)
造成的後果。但是為什麼第一次沒有間隔?那是因為:
- 未使用生成器時:
createRange
函式內的for
迴圈結果被很快放到$data
中,並且立即返回。所以,foreach
迴圈的是一個固定的陣列。 - 使用生成器時:
createRange
的值不是一次性快速生成,而是依賴於foreach
迴圈。foreach
迴圈一次,for
執行一次。
到這裡,你應該對生成器有點兒頭緒。
深入理解生成器
程式碼剖析
下面我們來對於剛剛的程式碼進行剖析。
function createRange($number){
for($i=0;$i<$number;$i++){
yield time();
}
}
$result = createRange(10); // 這裡呼叫上面我們建立的函式
foreach($result as $value){
sleep(1);
echo $value.'<br />';
}
我們來還原一下程式碼執行過程。
- 首先呼叫
createRange
函式,傳入引數10
,但是for
值執行了一次然後停止了,並且告訴foreach
第一次迴圈可以用的值。 foreach
開始對$result
迴圈,進來首先sleep(1)
,然後開始使用for
給的一個值執行輸出。foreach
準備第二次迴圈,開始第二次迴圈之前,它向for
迴圈又請求了一次。for
迴圈於是又執行了一次,將生成的時間戳告訴foreach
.foreach
拿到第二個值,並且輸出。由於foreach
中sleep(1)
,所以,for
迴圈延遲了1秒生成當前時間
所以,整個程式碼執行中,始終只有一個記錄值參與迴圈,記憶體中也只有一條資訊。
無論開始傳入的$number
有多大,由於並不會立即生成所有結果集,所以記憶體始終是一條迴圈的值。
概念理解
到這裡,你應該已經大概理解什麼是生成器了。下面我們來說下生成器原理。
首先明確一個概念:生成器yield關鍵字不是返回值,他的專業術語叫產出值,只是生成一個值
那麼程式碼中foreach
迴圈的是什麼?其實是PHP在使用生成器的時候,會返回一個Generator
類的物件。foreach
可以對該物件進行迭代,每一次迭代,PHP會通過Generator
例項計算出下一次需要迭代的值。這樣foreach
就知道下一次需要迭代的值了。
而且,在執行中for
迴圈執行後,會立即停止。等待foreach
下次迴圈時候再次和for
索要下次的值的時候,for
迴圈才會再執行一次,然後立即再次停止。直到不滿足條件不執行結束。
實際開發應用
很多PHP開發者不瞭解生成器,其實主要是不瞭解應用領域。那麼,生成器在實際開發中有哪些應用?
讀取超大檔案
PHP開發很多時候都要讀取大檔案,比如csv檔案、text檔案,或者一些日誌檔案。這些檔案如果很大,比如5個G。這時,直接一次性把所有的內容讀取到記憶體中計算不太現實。
這裡生成器就可以派上用場啦。簡單看個例子:讀取text檔案
我們建立一個text文字文件,並在其中輸入幾行文字,示範讀取。
<?php
header("content-type:text/html;charset=utf-8");
function readTxt()
{
# code...
$handle = fopen("./test.txt", 'rb');
while (feof($handle)===false) {
# code...
yield fgets($handle);
}
fclose($handle);
}
foreach (readTxt() as $key => $value) {
# code...
echo $value.'<br />';
}
通過上圖的輸出結果我們可以看出程式碼完全正常。
但是,背後的程式碼執行規則卻一點兒也不一樣。使用生成器讀取檔案,第一次讀取了第一行,第二次讀取了第二行,以此類推,每次被載入到記憶體中的文字只有一行,大大的減小了記憶體的使用。
這樣,即使讀取上G的文字也不用擔心,完全可以像讀取很小檔案一樣編寫程式碼。
轉自:https://segmentfault.com/a/1190000012334856