1. 程式人生 > >LVS故障解決案例解析

LVS故障解決案例解析

LVS+Keepalived+Nginx架構中,某天突然發現網站www.wuguangke.cn 部分使用者訪問巨慢,甚至無法訪問,那這個問題我們該如何定位呢?分兩種情況:如果有監控,如果有報警簡訊再好不過了。然後可以很快的定位到某一臺機器。如果沒有監控,或者其他的原因沒法看監控,那我們該如何排查呢?如下步驟:

  1. 第一步:首先我們想到ping www.wuguangke.cn ,通過ping返回資料部正常
  2. 第二步:登入LVS伺服器,ipvsadm –Ln 檢視當前後端web連線資訊,顯示如下: 
  3. [[email protected] keepalived]# ipvsadm -Ln 
  4. IP Virtual Server version 1.2.1 (size
    =4096) 
  5. Prot LocalAddress:Port Scheduler Flags 
  6.   -> RemoteAddress:Port           Forward Weight ActiveConn InActConn 
  7. TCP  192.168.1.10:80 wlc 
  8.   -> 192.168.1.6:80                 Route   100    2         13         
  9.   -> 192.168.1.5:80                 Route   100    120       13         
  10.   -> 192.168.1.4:80                 Route   100    1363      45 

通過LVS資訊,我們看到LVS 選擇的輪訓方式為加權最少連線,而網站也是部分無法訪問,我們可以猜測是其中一臺web伺服器無法訪問或者訪問巨慢導致,我們會想難道LVS不會自己判斷嗎?想法很好,那我們接下來檢視keepalived.conf配置,部分截圖如下:

  1. real_server 192.168.1.4  80  { 
  2.         weight 100         
  3.         TCP_CHECK { 
  4.         connect_timeout 10  
  5.         nb_get_retry 3 
  6.         delay_before_retry 3 
  7.         connect_port 80 
  8.         } 
  9. }

通過配置檔案我們發現LVS預設用的是TCP檢測方式,只要80埠能通,請求就會轉發到後端伺服器。緊接著在LVS /tmp目wget http://192.168.1.4/ 返回502超時,另外幾臺nginx返回正常,1.4伺服器80埠對於LVS來說是開啟的,所以LVS會把請求轉發給給它。

這就造成了為什麼部分使用者可以訪問,有的使用者無法訪問的問題。登入1.4 nginx伺服器,pkill nginx ,臨時停止nginx保證服務保證正常訪問,然後再檢視nginx日誌發現是後端程式連線一臺資料庫出現的問題。

回過頭來我們會發現,LVS不會檢測你後端502超時錯誤,只關心80埠是否開啟對於應用來說,這樣檢測明顯不足,那我們需要如何處理呢?增加LVS對後端Nginx URL的檢測,能訪問URL則表示服務正常,直接看程式碼:

  1. real_server 192.168.1.4 80 { 
  2.         weight 100 
  3.         HTTP_GET { 
  4.         url { 
  5.         path /monitor/warn.jsp 
  6.         status_code 200 
  7.         } 
  8.         connect_timeout 10 
  9.         nb_get_retry 3 
  10.         delay_before_retry 3 
  11.      } 

我們對比之前的檢測方式,從單純的80埠到現在的URL檢測,後端如果某臺出現502超時錯誤,LVS會自動踢出,等後端恢復後自動新增。自此故障解決完畢!歡迎大家共同交流和學習!

相關推薦

LVS故障解決案例解析

LVS+Keepalived+Nginx架構中,某天突然發現網站www.wuguangke.cn 部分使用者訪問巨慢,甚至無法訪問,那這個問題我們該如何定位呢?分兩種情況:如果有監控,如果有報警簡訊再好不過了。然後可以很快的定位到某一臺機器。如果沒有監控,或者其他的原因沒法

如何解決DNS解析錯誤故障

搜索 正常的 無法 cond 沒有 斷開 如何解決 ogl 了解 DNS解析出現錯誤,就是把一個域名解析成一個錯誤的IP地址,或者根本不知道某個域名對應的IP地址是什麽時,我們就無法通過域名訪問相應的站點了,這就是DNS解析故障。出現DNS解析故障最大的癥狀就是訪問站點對應

DNS解析故障解決

當DNS解析出現錯誤,例如把一個域名解析成一個錯誤的IP地址,或者根本不知道某個域名對應的IP地址是什麼時,就無法通過域名訪問相應的站點了,這就是DNS解析故障。出現DNS解析故障最大的症狀就是訪問站點對應的IP地址沒有問題,然而訪問他的域名就會出現錯誤。 1.用nsloo

解決vue解析出現閃爍

attr ice remove rem temp 出現 js開發 模塊 spl 原因: 在使用vuejs、angularjs開發時,經常會遇見在如Chrome這類能夠快速解析的瀏覽器上出現表達式({{ express }} ),或者是模塊(div)的閃爍。對於這個問題由於

Logstash語法常用案例解析(一)

logstash摘要簡述logstash的常用插件,以及簡單的使用案例一:基礎運行建議使用supervisor來管理ELK中的各個組件,方便同一管理安裝 https://www.aolens.cn/?p=809 有講解提供一個常用的配置:[program:logstash] command=/opt

《嵌入式系統可靠性設計技術及案例解析》讀書筆記(七)

lcd 適合 實現 電源線 寬度 減少 狀態 面膜 平面 電磁兼容(Electro Magnetic Compatibility,EMC)是指設備或系統在電磁環境中運行時,不會因為其他設備的合理電磁幹擾而影響本機的功能和安全性,也不會對其環境中的任何設備產生不合理的電磁幹擾

聯通專線切換成移動專線問題故障解決

路由器端口雙工模式 公司業務需求,把原來的聯通線路切換成移動的線路,本來很簡單的問題,只要把原來的專線路由器上的聯通口拔掉,插上移動線路就行了。對方反饋插上去路由器網口不亮經過登陸對方路由器發現端口模式是半雙工模式登錄對方路由器#config#(config)#(config)#interface GI

C#正則表達式簡單案例解析

class sss 枚舉 字符串的操作 option 完全匹配 裏的 需要 業務 正則表達式主要用於字符串的操作。 1.Regex.IsMatch:判斷指定的字符串是否符合正則表達式。 2.Regex.Match:提取匹配的字符串,只能提取到第一個符合的字符串。這裏還可以使

==和equals的區別案例+解析

object back 們的 哈哈 byte string類 案例 round ack 什麽理論也先不說,代碼先給大家看下:    接下來:用一句話總結==和equals的區別   ==號比較的是內存地址  ||  equals()比較的是字符串的內容 解析:   A  =

下載ASP.NET MVC5框架剖析與案例解析(MVC5原理剖析、漏洞及運維安全、設計模式)

mvc5框架剖析與案例解析 運維安全 mvc5原理剖析 地址:http://pan.baidu.com/s/1dFhBu2d 密碼:peas轉一播放碼,200多課!本課程針對MVC5版本的ASP.NET MVC,同時涉及太多底層實現的內容,所以大部分是找不到現成參考資料的,這些內容大都來自講師對源

4.10/4.11/4.12 lvm講解 4.13 磁盤故障案例

4.10/4.11/4.12 lvm講解 4.13 磁盤故障小案例4.10/4.11/4.12 lvm講解4.13 磁盤故障小案例4.10/4.11/4.12 lvm講解lvm講解4.10 lvm講解上安裝下lvm如果忘記了 lvm包pvdisplay 查看4.11 lvm 中查看物理卷除了pvdisplay

Oracle 並行案例解析

oracle 並行| 0 | SELECT STATEMENT | | 107 | 2782 | 3 (34)| 00:00:01 | | | | | 1 | PX COORDINATOR

PXE+Kickstart無人值守安裝CentOS 7出現DHCP故障解決報告

部署dhcp服務器 部署DHCP服務器 在安裝dhcp.x86_64 後,用命令systemctlstatus dhcpd 命令查看dhcp服務運行狀態發現failed。報錯信息為如下圖:Not configured to listen on any interfac

CheckPoint重啟後GAIA無法啟動的故障解決記錄

checkpoint一、環境描述客戶設備環境為一套HA的CheckPoint防火墻,有一臺獨立的smart-1管理。設備系統為R77.30 客戶在重啟設備後,發現防火期https頁面打不開,只能ssh登陸設備,並且在sms中查看到兩臺防火墻都斷線。並在遠程技術的支持下執行cpstart後還是處於斷線狀態。二、

Linux的lvm講解與磁盤故障案例

lvml 4.10 lvm講解(上)l 4.11 lvm講解(中)l 4.12 lvm講解(下)l 4.13 磁盤故障小案例 lvm講解(上)lvm可以很方便的擴容和縮容磁盤的空間,但是有一定的局限性,一旦出現問題就比較麻煩了,例如某個磁盤使用了lvm,然後某一天文件系統發生損壞裏面的數據找不到了,這種情況第

專線路由故障解決—_TS

靜態路由2017-11-3路由問題思路A B C D四家公司A需要訪問D的設備,但是不同專線方向是A-B-C-D從A的路由器加到D的路由後不通(B和C都是做通的)route zhuanxian 10.24.0.0 255.255.0.0 20.16.0.1 1(A公司路由器,下一跳指向B公司)ip rou

VMware克隆Linux主機的故障-解決方案

虛擬機克隆說明: 為了快速部署實驗、在使用Linux虛擬機的過程中我們經常使用的虛擬機克隆。此文就是針對虛擬機克隆過程中出現的問題做匯總說明常見故障: 克隆完成後的虛擬機網絡異常、無法使用XSHELL鏈接故障一解決思路: 1)虛擬機克隆過程將mac信息復制過來、mac地址必須唯一 2)

LVM磁盤故障案例

linux4.10 lvm講解lvm我們在這裏我們給大家介紹一下【lvm是一個軟件,平時我們工作的時候能不用就最好別用它。】灰色的是我們的硬盤杏×××是物理卷【也就是磁盤分區】(我們需要把物理卷搞成物理卷)綠色是物理卷組【我們可以把幾個不同的磁盤分區劃分成一個物理卷組】(組:就是物理卷的組)藍色是邏輯卷【掛載

U盤裝完系統後 重啟起不來故障解決

stage1 很多 修改 vi命令 沒有 啟動引導 eboot onf term 這個是運維新手經常碰到的問題,我就這麽被坑了一下網上有很多解決此故障的文檔,我做一下歸整,從問題的發生,到解決問題的思路再到步驟那麽我們開始第一步,是哪兒出的問題: 如果是對Boot Load

full gc頻繁的分析及解決案例

過大 heap times 正常的 出現 結構 lec 收集器 max full gc頻繁的分析及解決案例2016-04-14 09:20:54 0個評論 來源:end‘s coding life 收藏 我要投稿 現象 ? 1