1. 程式人生 > >多進程PHP腳本實現海量數據轉移總結

多進程PHP腳本實現海量數據轉移總結

dia scene 更多 結果 是我 用戶數據 數據導入 公眾 使用

背景

由於項目的新版本有大改動,需求是將一些舊表的數據轉移到新表來,於是使用PHP寫了數據腳本,對MySQL的數據進行讀取,計算,轉移,插入等處理,實現千萬級別數據的計算和轉移。這裏面也遇到一些問題,這裏做下總結:

需求

  • 將幾個舊表的數據拷到新表來,有些字段發生了變化,有些字段的值需要計算;
  • 單表數據量到達千萬級,而且線上有多個庫,要對腳本進行必要的優化;
  • 腳本執行時間控制在兩個小時之內;

技術分享圖片

實現過程

1、分析表數據的關聯性,整合腳本。

分析了幾個表數據之間的聯系,可以將一些有關聯的表的數據放在一個數據腳本中,比如user表和user_detail表,這兩個表的數據是有一些關聯的,一些數據值的計算不用重復讀取,減少腳本的計算操作,節約時間;

2、數據讀取時,減少配置數據的加載操作,減少數據查詢操作。

開始數據轉移時,必要的配置數據必須在腳本開始時全部加載進來,不能在轉移時用到再去進行查詢,因為每次查詢都是意味著消耗更多時間。當然這裏有個前提是你的機器內存要夠大,PHP的這種加載是比較消耗內存的。一個腳本運行起來,內存都要占了很多G,這種其實就是用空間換時間的做法。當然,當機器內存不夠大,或者性能不夠強時,還是先保證腳本的健壯性,再來考慮性能。

PHP可以使用set_time_limit ( 0 ); @ini_set(‘memory_limit‘,‘2048M‘);來指定腳本執行的最長時間和使用內存的最大值;

3、腳本處理數據時,需要分段分批處理。

我們在處理數據時,需要先讀取出用戶id,在根據id查詢表的數據再做處理。就是我們的處理邏輯都是以用戶id為基準,按照用戶id做key,數據做value的方式,遍歷數據。為了減少機器的負載,充分利用機器的性能,我們使用一個while循環,每次處理3000個用戶的數據,轉移完後再查詢出3000個用戶的數據,如此類推,直到所有數據處理完,也就是跳出while循環。

同時必須要保證數據的有效性,不然insert不進去。這裏還遇到過一個問題,就是在使用PHP的函數批量insert數據時,有時一個sql語句數據量太多,會超過MySQL最大的insert限制,所以在insert之前,需要將需要插入的數據進行分段,也就是對數據進行隔斷處理,分批插入。PHP中可以使用array_slice()對數組數據進行分段。

4、將多次MySQL處理集合在一次的commit上。

我們在一次循環中是使用了一次try-catch來監控一次操作,當某個數據處理有異常時,就直接拋出異常,保證每次處理數據的完整性。我們每次處理開始前,先開啟一個事務,處理完成後會進行一次提交事務。為了節省時間,可以優化成:開啟一個事務,在遍歷了多個用戶數據後,再進行一次提交,或者在遇到異常後也提交一次,這樣可以保證數據完整,也可以減少多次commit db的操作,節約時間。

5、使用shell腳本整合每個PHP腳本,開啟多個PHP進程。

因為我們處理一個庫的數據要涉及到多個PHP腳本,可以使用shell來整合多個腳本,並且讓其順序執行。使用nohub命令不掛斷地運行命令(後面再單獨介紹這個linux命令)。根據機器的核數來開啟多少個PHP進程,充分發揮機器的性能。

例子

比如執行一個PHP腳本,可以這樣子:

進程1:php move_user.php a 0 10000

進程2:php move_user.php a 10000 20000

進程3:php move_user.php b 0 10000

進程4:php move_user.php b 10000 20000

這樣表示使用PHP cli模式(命令模式)執行一個PHP腳本,對於進程1,a 表示是數據庫a,0 和10000表示從用戶id 0開始,執行到用戶id 10000 結束,一個進程處理10000個用戶數據。

進程2表示執行數據庫a 10000 到20000的用戶數據。

這樣多個進程,可以同時執行多個庫的數據,多個區段的用戶數據,節省時間。

當然,每次處理多少個用戶數據,每次開多少個進程,每次遍歷多少數據,都是根據項目的業務數據,和機器的最大負載來綜合處理,達到一個平衡狀態。

總結

  • 此次數據處理原本預期要一個小時,結果由於其他原因,後面花費了兩個多小時,但整體都是在計劃之內,所以是正常的;
  • PHP和MySQL做數據交互,充分利用了PHP的性能後,瓶頸就在與MySQL更新和插入數據了,我們就是通過分段循環處理,分段提交事務來平衡了MySQL的瓶頸;
  • MySQL單表數據太大,後面需要單獨對這塊進行優化,不然以後對數據進行更新和備份時,都要浪費大量的時間;
  • 必須保證腳本邏輯沒有問題,不然後面重跑就很蛋疼了。

相關閱讀

PHP+MySQL實現海量數據導入導出的一些總結

---------------------------------------------------END----------------------------------------------------

歡迎關註我的公眾號【phper的進階之路】

技術分享圖片

不斷更新各種技術心得,免費提供各種學習資源!

多進程PHP腳本實現海量數據轉移總結