API返回延遲,FPM重啟後恢復之後又重現問題解決方案

阿新 • • 發佈：2020-07-28

## 背景 >最近在提供後臺API時,提供了一個簡單邏輯的介面部署在測試環境，自測沒問題，提交測試突然有一天,介面響應延遲嚴重，幾乎每次都是3-4秒返回這對於一個介面來說，肯定是有問題的於是便有了以下的方法嘗試 ## 重啟FPM >* 最開始以為不是什麼大問題，猜想可能是fpm問題畢竟測試環境，部署程式碼繁多 >* 重啟後，介面響應正常，可不一會就又復現 ## 重新分析定位問題 >* 經過幾次的嘗試後，發現問題其實沒有那麼簡單 >* 重啟fpm後，過了不到幾秒，問題依然復現 >* 編寫簡單的php檔案，無複雜邏輯，只輸出字串，問題復現 >* 命令列執行檔案，無此問題 >* 經過以上嘗試，確認是FPM的問題或者PHP的初始化解析執行的問題，當時想是不是有特定的模組載入經過php -m 檢視，無特殊模組(其實應該仔細看看,所以才繞了彎路) ## 日誌定位 >有了上面的分析，最先想到的是利用日誌檢視問題 #### 檢視nginx日誌 nginx 日誌格式，新增詳細的各個時間段的相應 log_format main '$remote_addr [$host] - $remote_user [$time_local] $request upstream_response_time: $upstream_response_time request_time: $request_time upstream_connect_time: $upstream_connect_time upstream_header_time:$upstream_header_time $status $body_bytes_sent $http_referer $http_user_agent '; 添加了 upstream_response_time upstream_connect_time upstream_header_time 含義如下: request_time nginx服務，從發起請求的客戶端獲取到第一個位元組開始，到返回給客戶端最後一個位元組，日誌寫入檔案後，所經過的時間。單位為秒。 upstream_connect_time nginx服務，從與上游服務開始建立連線，到連線建立成功，所經過的時間。單位為秒。 upstream_header_time nginx服務，從與上游服務開始建立連線，到接收到響應返回頭的第一個位元組，所經過的時間。單位為秒。 upstream_response_time nginx服務，從與上游服務開始建立連線，到接收完響應返回的最後一個位元組，所經過的時間。單位為秒 ![](https://img2020.cnblogs.com/blog/385704/202007/385704-20200728162028181-1944819290.jpg [參考連結](https://juejin.im/post/5d26eb16f265da1bd522f8d6) 程式真正的執行時間 = $upstream_header_time - $upstream_connect_time $request_time 中包含了資料返回時間 $request_time 中包含了日誌列印的時間 nginx 日誌顯示 xxx [xxx] - - [11/Jul/2020:13:36:45 +0000] POST /xxx/xxx HTTP/1.1 upstream_response_time: 3.048 request_time: 3.048 upstream_connect_time: 0.000 upstream_header_time:3.048 200 98 - Dalvik/2.1.0 (Linux; U; Android 8.1.0; vivo 1808 Build/O11019) 從中可以看出確實是上游服務FPM 返回延遲了 #### 配置 FPM 慢日誌 ` lowlog = /xxx/www-slow.log request_slowlog_timeout = 1s ` > 發現慢日誌中，並沒有記錄於是懷疑是否日誌檔案許可權有問題，修改後依然未寫入想到用sleep的方式，寫入慢日誌，成功寫入 > 現象就是配置了1秒的FPM慢日誌，介面響應超過1s，但沒有寫入慢日誌那就說明 PHP 程式執行完成後，又做了什麼處理，導致了延遲或者其他的配置問題 ## 檔案描述符 > 網上搜索, 可能是檔案的開啟數量有限制, 並沒有做優化於是檢視對應的配置 nginx 配置檔案 worker_rlimit_nofile ulimit -n 是做了優化的的也並不是網上所說的問題 ## 思考 >* 所有的PHP程式響應都有延遲，超過3s左右所以並不是個例，和其他的如mysql redis 連線沒關係 >* 突然間出現的，原來是沒問題的，應該是近期做了更改但由於測試環境，東西太多，一時也找不到是什麼改動 >* 命令列模式下，沒有延遲，所以和FPM有關而重複FPM後,幾秒內正常,後又復現一直以為是FPM配置有什麼問題,目前看並不是 >* 所以肯定是程式處理完成後，又做了什麼，導致了延遲那有什麼辦法可以追蹤程式碼的執行嗎對於php而言，xhprof擴充套件是可以很好的展示一個流程中的耗時而且還有對應的圖片展示(需要安裝擴充套件)，但還需要安裝於是就有了下面的方法 ## strace除錯跟蹤 >簡單來說，strace是用來跟蹤程序內的系統呼叫和接受的訊號。對程式除錯很有幫助 >* 於是,來除錯FPM的程序，看看都做了哪些呼叫 ` strace -t -f $(pidof php-fpm| sed 's/$[0-9]*$/\-p \1/g') -epoll -o /tmp/strace.txt ` 開啟檔案 12406 06:55:13 poll([{fd=5, events=POLLIN}], 1, 5000) = 1 ([{fd=5, revents=POLLIN}]) 12406 06:55:13 poll([{fd=6, events=POLLOUT|POLLWRNORM}], 1, 10000) = 1 ([{fd=6, revents=POLLOUT|POLLWRNORM|POLLERR|POLLHUP}]) 12405 06:55:16 --- SIGQUIT {si_signo=SIGQUIT, si_code=SI_USER, si_pid=12401, si_uid=0} --- 12405 06:55:16 +++ exited with 0 +++ 12401 06:55:16 --- SIGCHLD {si_signo=SIGCHLD, si_code=CLD_EXITED, si_pid=12405, si_status=0, si_utime=0, si_stime=0} ---` >* 通過以上資訊，在 06:55:13後，確實有超過3秒的時間，是 fd=6 導致的, 那 fd=6 是什麼可通過 lsof -p pid 的方式檢視但程序id 12405 退出了就是說，由於FPM的動態啟動程序的配置，一個程序退出後，會重新生成程序，已達到配置的程序數所以一邊列印除錯資訊，一邊輸出工作pid的檔案資訊 >* lsof -p 12408 php-fpm 12408 apache 5u IPv4 1203792101 0t0 TCP localhost:cslistener->localhost:22384 (ESTABLISHED) php-fpm 12408 apache 6u IPv4 1203794606 0t0 TCP xx.com:28866->ip-10-66-100-169.ec2.internal:9411 (SYN_SENT) > 此時，原因終於找到了,在每次結束後，又請求了某個ip 9411埠的服務可以看到tcp狀態是 SYN_SENT，雖然已發出連線請求，但對應沒回應，並不是ESTABLISHED狀態說明是對應請求機器的問題 >於是去檢視此ip對應機器,原來確實有此機器，但不知什麼時候起，此機器已下架了導致了這個問題，此刻想到了為什麼突然之間介面就有延遲了 ## 問題修復 > 既然確認了是連線了某個服務導致的問題，對應的php配置檔案應該有配置於是找到所有模組配置檔案ini路徑，搜尋ip 發現是其 molten 擴充套件配置 > molten 擴充套件是一個全鏈路追蹤的工具 molten追蹤php核心呼叫庫執行時資訊並且按照zipkin/optracing格式輸出資訊。可以追蹤`curl,pdo,mysqli,redis,mongodb,memcached` 這麼多的執行資訊。 > 去掉此擴充套件載入，重啟FPM後，介面響應正常 ## 總結 >* 問題出現的時候，最直觀的方式應該是日誌，通過檢視日誌，可以解決大部分問題 >* 當日志解決不了的問題，如何除錯，就成了問題解決的關鍵 strace ltrace 以及 gd

API返回延遲,FPM重啟後恢復之後又重現問題解決方案

API返回延遲,FPM重啟後恢復之後又重現問題解決方案

域用戶桌面重啟後恢復到初裝狀態

Win10設定不能儲存，新增應用磁貼重啟後恢復原狀問題

伺服器記憶體洩露 , 重啟後恢復問題解決方案

win10 雙屏重啟後恢復單屏

系統重啟後恢復OpenStack網路設定-tips

openstack 計算節點重啟後恢復

在作業系統重啟後恢復應用程式的工作狀態

linux組建的軟raid md0重啟後自動變成md127的解決方法

windows重啟後瀏覽器無法上網的解決辦法

vscode重啟後版本回退的解決方法

tomcat重啟後session沒有清除的解決辦法

發布或重啟線上服務時抖動問題解決方案

docker沒有關閉，重啟服務器報錯，解決方案

ubuntu網路重啟後或主機重啟後，/etc/resolv.conf恢復原樣的解決辦法

centos 修改resolv.conf後重啟系統恢復原狀

伺服器重啟後例項的恢復問題

Android應用第一次安裝成功點選“開啟”後Home鍵切出應用後再點選桌面圖示返回導致應用重啟問題

如何解決sqlmapapi重啟後，任務全部丟失的問題

php7 php-fpm 重啟

API返回延遲,FPM重啟後恢復之後又重現 問題解決方案

相關推薦

API返回延遲,FPM重啟後恢復之後又重現問題解決方案