效能測試思路及常遇到的問題分析

阿新 • • 發佈：2018-12-31

開始效能測試前需要了解的內容：

1、專案具體需求及測試範圍：測哪些功能，哪些介面,存在哪些場景。

2、指標：響應時間，併發數，tps，總tps，穩定性交易總量多少，事務成功率，交易波動範圍，穩定執行時長，資源利用率等

3、環境：生產環境伺服器數量，測試環境伺服器數量，按照資源配比得出測試指標。

4、協議：系統用什麼協議進行通訊。

5、壓力機數量：如果併發使用者數太多，需要把壓力發到不同的壓力機，不然可能會存在壓力機瓶頸問題，導致tps和響應時間抖動。

6、交易佔比：分析線上日誌得出tps佔比。

7、系統架構：請求流經過哪些環節，壓測時監控這些環節。

測試：

1、基準：一個使用者迭代100次，關注響應時間，事務成功率100%。

2、負載：10個使用者跑10分鐘，關注響應時間，事務成功率100%。

3、容量：估算一個總tps，根據公式計算出每個交易的pacing和vu，獲取系統最大處理能力（最優容量），再令外測出三個梯度作為對比（兩組小於最優容量，一組大於最優容量），四組容量VU等差，tps等差，對比每組容量實際佔比和測試佔比（越接近越能模擬真實場景），關注響應時間，總tps，tps，事務成功率，AP cpu利用率，DB cpu利用率，執行緒死鎖，資料庫死鎖。

其中響應時間應小於負載測試時間，總tps應約等於預估總tps（相差不超過10是正常的），每個交易的tps應接近預估總tps*佔比，事務成功率100%，AP cpu小於60%，DB cpu小於80%。dump執行緒棧檢測是否有執行緒死鎖，檢視資料庫日誌看是否有資料庫死鎖。

4、穩定性：採取最優容量的80%作為壓力持續執行24小時，觀察系統長時間執行的效能表現，關注響應時間，tps，總tps，事務成功率，交易總數，觀察是否有記憶體溢位（堆溢位，棧溢位，持久代溢位），cpu利用率是否達標，mem是否不持續增長，是否能正常觸發fullgc，gc時間，gc頻率， fullgc時間，fullgc頻率（重點關注，JVM調優就是為了減少fullgc頻率）。

監控：

容量測試和穩定性測試時啟動nmon監控。

壓測中遇到的效能問題及解決辦法：

一、容量測試過程中cpu過高

1、用vmstat實時監控cpu使用情況。很小的壓力AP cpu卻到了80%多，指標是不能超過60%。

2、分析是use cpu過高還是sys cpu過高，常見的是use cpu使用過高。

3、如果是sys cpu使用過高，先把消耗cpu最多的程序找出來（top命令），再找到該執行緒下消耗cpu過高的是哪幾個執行緒，再把該執行緒轉換成16進位制，再用jstack命令來dump執行緒棧，看這個執行緒棧在呼叫什麼東西導致use cpu過高。

二、記憶體溢位（堆溢位、棧溢位、持久代溢位）

1、堆記憶體溢位

1)穩定性壓測一段時間後，LR報錯，日誌報java.lang.OutOfMemoryError.Java heap space。

2)用jmap -histo pid命令dump堆記憶體使用情況，檢視堆記憶體排名前20個物件，看是否有自己應用程式的方法，從最高的查起，如果有則檢查該方法是什麼原因造成堆記憶體溢位。

3)如果前20裡沒有自己的方法，則用jmap -dump來dump堆記憶體，在用MAT分析dump下來的堆記憶體，分析匯出記憶體溢位的方法。

4)如果應用程式的方法沒有問題，則需要修改JVM引數，修改xms，xmx，調整堆記憶體引數，一般是增加堆記憶體。

2、棧記憶體溢位

1)穩定性壓測一段時間後，LR報錯，日誌報Java.Lang.StackOverflowError。

2)修改jvm引數，將xss引數改大，增加棧記憶體。

3)棧溢位一定是做批量操作引起的，減少批處理資料量。

3、持久代溢位

1)穩定性壓測一定時間後，日誌報Java.Lang.OutOfMenoryError.PermGen Space。

2)這種原因是由於類、方法描述、欄位描述、常量池、訪問修飾符等一些靜態變數太多，將持久代佔滿導致持久代溢位。

3)修改jvm配置，將XX:MaxPermSize=256引數調大。儘量減少靜態變數。

三、執行緒死鎖

1、容量測試壓測一段時間後，LR報連線超時。

2、造成這種現象的原因很多，比如頻寬不夠，中介軟體執行緒池不夠用，資料庫連線池不夠，連線數佔滿等都會造成連線不上而報超時錯誤。

3、jstack命令dump執行緒棧，搜尋執行緒棧裡有沒有block，如果有的話就是執行緒死鎖，找到死鎖的執行緒，分析對應的程式碼。

四、資料庫死鎖

1、容量測試壓測一段時間後，LR報連線超時。

2、造成這種現象的原因很多，比如頻寬不夠，中介軟體執行緒池不夠用，資料庫連線池不夠，連線數佔滿等都會造成連線不上而報超時錯誤。

3、資料庫日誌中搜索block，能搜到block的話就是存在資料庫死鎖，找到日誌，檢視對應的sql，優化造成死鎖的sql。

五、資料庫連線池不釋放

1、容量測試壓測一段時間後，LR報連線超時。

2、造成這種現象的原因很多，比如頻寬不夠，中介軟體執行緒池不夠用，資料庫連線池不夠，連線數佔滿等都會造成連線不上而報超時錯誤。

3、去資料庫檢視應用程式到資料庫的連線有多少個（ show full processlist），假如應用程式裡面配置的資料庫連線為30，在資料庫檢視應用程式到資料庫的連線也是30，則表示連線池佔滿了。

將配置改成90試試，去資料庫看如果連線到了90，則可以確定是資料庫連線池不釋放導致的。檢視程式碼，資料庫連線部分是不是有建立連線但是沒有關閉連線的情況。基本就是這種情況導致的，修改程式碼即可。

六、TPS上不去

1、壓力大的時候tps頻繁抖動，導致總tps上不去。檢視是否有fullgc（tail -f gc_mSrv1.log | grep full）。

2、pacing設定太小也會導致tps上不去，對抖動大的交易多增加點使用者即可。

3、tps抖動，單壓抖動大的交易，發現很平穩，這時懷疑是不是壓力太大導致，所以發容量的時候把壓力最大的那隻交易分到其他壓力機，然後發現tps不抖動了。注意：多臺壓力機隻影響tps抖動，不會影響伺服器的cpu。

4、看響應時間有沒有超時，看使用者數夠不夠。

七、伺服器壓力不均衡（相差1%-2%是正常的）

1、跑最優容量的時候，四臺AP只有一臺cpu超過60%，其他三臺都在60%以下。

2、檢視伺服器是否有定時任務。

3、檢視是否存在壓力機瓶頸。

4、是否存在頻寬瓶頸（區域網不存在此問題）。

5、檢視部署的版本，配置是否一樣。

6、可能別人也在用這些AP，因為同一臺物理機上有很多虛擬機器，因為別人先用，資源被別人先佔了。

八、fullgc時間太長

1、跑容量和穩定性的時候，出現LR報請求超時錯誤，檢視後臺日誌是fullgc了，看LR幾點報的錯和日誌裡fullgc的時間是否對應，fullgc會暫停整個應用程式，導致LR前端沒響應，所以報錯，這時可以減少old代記憶體，從而減少fullgc時間，減少fullgc時間LR就不會報錯，讓使用者幾乎感覺不到應用程式暫停。

2、四臺AP輪流著full gc（部分server fullgc，其他server也會fullgc），這時可以制定策略讓不同的server不同時fullgc，或者等夜間交易量少時寫定時任務重啟服務。

注意：

伺服器日誌為error下測試。

服務啟動後幾分鐘內發壓壓力會很大，最好是服務啟動兩三分鐘後再開始跑壓力。

效能測試思路及常遇到的問題分析

效能測試思路及常遇到的問題分析

效能測試過程及模型構建

手機效能測試指標及操作

yum安裝及常遇問題解決

有關效能測試結果的幾點分析原則

效能測試指標及常用監控工具

效能優化思路與具體問題分析過程

jmeter-效能測試學習筆記1—結果分析

OpenStack效能測試工具Rally實踐和分析

VS2010+OpenCV2.4.6安裝與配置及常遇問題

效能測試之JVM的故障分析工具VisualVM

效能測試之壓力機瓶頸分析及優化

LoadRunner：Controller及結果分析一、效能測試概述 1、關於效能測試目標： ①TPS ②一定併發使用者數下功能點的響應時間 ③一定響應時間內功能點的併發使用者數效能測試不是

效能測試分析思路(未完待續)

效能測試分析及調優原理

ArrayList和LinkedList的幾種迴圈遍歷方式及效能對比分析主要介紹ArrayList和LinkedList這兩種list的五種迴圈遍歷方式，各種方式的效能測試對比，根據ArrayLis

門戶類網站效能測試分析及調優

效能測試-壓力測試常遇到的問題及解決方法

效能測試分析方法及要點

Hyperledger fabric效能測試及分析

效能測試思路及常遇到的問題分析

相關推薦