nginx單點故障怎麼破?
一、問題域
nginx、lvs、keepalived、f5、DNS輪詢,每每提到這些技術,往往討論的是接入層的這樣幾個問題:
1)可用性:任何一臺機器掛了,服務受不受影響
2)擴充套件性:能否通過增加機器,擴充系統的效能
3)反向代理+負載均衡:請求是否均勻分攤到後端的操作單元執行
二、上面那些名詞都是幹嘛的
由於每個技術人的背景和知識域不同,上面那些名詞縮寫(運維的同學再熟悉不過了),還是花1分鐘簡單說明一下(詳細請自行“百度”):
1)nginx:一個高效能的web-server和實施反向代理的軟體
2)lvs:Linux Virtual Server,使用叢集技術,實現在linux作業系統層面的一個高效能、高可用、負載均衡伺服器
3)keepalived:一款用來檢測服務狀態存活性的軟體,常用來做高可用
4)f5:一個高效能、高可用、負載均衡的硬體裝置(聽上去和lvs功能差不多?)
5)DNS輪詢:通過在DNS-server上對一個域名設定多個ip解析,來擴充web-server效能及實施負載均衡的技術
三、接入層技術演進
【裸奔時代(0)單機架構】
裸奔時代的架構圖如上:
1)瀏覽器通過DNS-server,域名解析到ip
2)瀏覽器通過ip訪問web-server
缺點:
1)非高可用,web-server掛了整個系統就掛了
2)擴充套件性差,當吞吐量達到web-server上限時,無法擴容
注:單機不涉及負載均衡的問題
【簡易擴容方案(1)DNS輪詢】
假設tomcat的吞吐量是1000次每秒,當系統總吞吐量達到3000時,如何擴容是首先要解決的問題,DNS輪詢是一個很容易想到的方案:
此時的架構圖如上:
1)多部署幾份web-server,1個tomcat抗1000,部署3個tomcat就能抗3000
2)在DNS-server層面,域名每次解析到不同的ip
優點:
1)零成本:在DNS-server上多配幾個ip即可,功能也不收費
2)部署簡單:多部署幾個web-server即可,原系統架構不需要做任何改造
3)負載均衡:變成了多機,但負載基本是均衡的
缺點:
1)非高可用:DNS-server只負責域名解析ip,這個ip對應的服務是否可用,DNS-server是不保證的,假設有一個web-server掛了,部分服務會受到影響
2)擴容非實時:DNS解析有一個生效週期
3)暴露了太多的外網ip
【簡易擴容方案(2)nginx】
tomcat的效能較差,但nginx作為反向代理的效能就強多了,假設線上跑到1w,就比tomcat高了10倍,可以利用這個特性來做擴容:
此時的架構圖如上:
1)站點層與瀏覽器層之間加入了一個反向代理層,利用高效能的nginx來做反向代理
2)nginx將http請求分發給後端多個web-server
優點:
1)DNS-server不需要動
2)負載均衡:通過nginx來保證
3)只暴露一個外網ip,nginx->tomcat之間使用內網訪問
4)擴容實時:nginx內部可控,隨時增加web-server隨時實時擴容
5)能夠保證站點層的可用性:任何一臺tomcat掛了,nginx可以將流量遷移到其他tomcat
缺點:
1)時延增加+架構更復雜了:中間多加了一個反向代理層
2)反向代理層成了單點,非高可用:tomcat掛了不影響服務,nginx掛了怎麼辦?
【高可用方案(3)keepalived】
為了解決高可用的問題,keepalived出場了(之前的文章“使用shadow-master保證系統可用性”詳細介紹過):
此時:
1)做兩臺nginx組成一個叢集,分別部署上keepalived,設定成相同的虛IP,保證nginx的高可用
2)當一臺nginx掛了,keepalived能夠探測到,並將流量自動遷移到另一臺nginx上,整個過程對呼叫方透明
優點:
1)解決了高可用的問題
缺點:
1)資源利用率只有50%
2)nginx仍然是接入單點,如果接入吞吐量超過的nginx的效能上限怎麼辦,例如qps達到了50000咧?
【scale up擴容方案(4)lvs/f5】
nginx畢竟是軟體,效能比tomcat好,但總有個上限,超出了上限,還是扛不住。
lvs就不一樣了,它實施在作業系統層面;f5的效能又更好了,它實施在硬體層面;它們效能比nginx好很多,例如每秒可以抗10w,這樣可以利用他們來擴容,常見的架構圖如下:
此時:
1)如果通過nginx可以擴充套件多個tomcat一樣,可以通過lvs來擴充套件多個nginx
2)通過keepalived+VIP的方案可以保證可用性
99.9999%的公司到這一步基本就能解決接入層高可用、擴充套件性、負載均衡的問題。
這就完美了嘛?還有潛在問題麼?
好吧,不管是使用lvs還是f5,這些都是scale up的方案,根本上,lvs/f5還是會有效能上限,假設每秒能處理10w的請求,一天也只能處理80億的請求(10w秒吞吐量*8w秒),那萬一系統的日PV超過80億怎麼辦呢?(好吧,沒幾個公司要考慮這個問題)
【scale out擴容方案(5)DNS輪詢】
如之前文章所述,水平擴充套件,才是解決效能問題的根本方案,能夠通過加機器擴充效能的方案才具備最好的擴充套件性。
facebook,google,baidu的PV是不是超過80億呢,它們的域名只對應一個ip麼,終點又是起點,還是得通過DNS輪詢來進行擴容:
此時:
1)通過DNS輪詢來線性擴充套件入口lvs層的效能
2)通過keepalived來保證高可用
3)通過lvs來擴充套件多個nginx
4)通過nginx來做負載均衡,業務七層路由
四、結論
聊了這麼多,稍微做一個簡要的總結:
1)接入層架構要考慮的問題域為:高可用、擴充套件性、反向代理+擴充套件均衡
2)nginx、keepalived、lvs、f5可以很好的解決高可用、擴充套件性、反向代理+擴充套件均衡的問題
3)水平擴充套件scale out是解決擴充套件性問題的根本方案,DNS輪詢是不能完全被nginx/lvs/f5所替代的