1. 程式人生 > >從0到千萬級訪問量網站架構演變史

從0到千萬級訪問量網站架構演變史

之前也有一些介紹大型網站架構演變的文章,例如LiveJournal的、ebay的,都是非常值得參考的,不過感覺他們講的更多的是每次演變的結果,而沒有很詳細的講為什麼需要做這樣的演變,再加上近來感覺有不少同學都很難明白為什麼一個網站需要那麼複雜的技術,於是有了寫這篇文章的想法,在這篇文章中將闡述一個普通的網站發展成大型網站過程中的一種較為典型的架構演變歷程和所需掌握的知識體系,希望能給想從事網際網路行業的同學一點初步的概念,文中的不對之處也請各位多給點建議,讓本文真正起到拋磚引玉的效果。

  架構演變第一步:物理分離webserver和資料庫

  最開始,由於某些想法,於是在網際網路上搭建了一個網站,這個時候甚至有可能主機都是租借的,但由於這篇文章我們只關注架構的演變歷程,因此就假設這個時候 已經是託管了一臺主機,並且有一定的帶寬了,這個時候由於網站具備了一定的特色,吸引了部分人訪問,逐漸你發現系統的壓力越來越高,響應速度越來越慢,而這個時候比較明顯的是資料庫和應用互相影響,應用出問題了,資料庫也很容易出現問題,而資料庫出問題的時候,應用也容易出問題,於是進入了第一步演變階段:將應用和資料庫從物理上分離,變成了兩臺機器,這個時候技術上沒有什麼新的要求,但你發現確實起到效果了,系統又恢復到以前的響應速度了,並且支撐住了更高的流量,並且不會因為資料庫和應用形成互相的影響。

  看看這一步完成後系統的圖示:

  

  這一步涉及到了這些知識體系:這一步架構演變對技術上的知識體系基本沒有要求。

  架構演變第二步:增加頁面快取

  好景不長,隨著訪問的人越來越多,你發現響應速度又開始變慢了,查詢原因,發現是訪問資料庫的操作太多,導致資料連線競爭激烈,所以響應變慢,但資料庫連線又不能開太多,否則資料庫機器壓力會很高,因此考慮採用快取機制來減少資料庫連線資源的競爭和對資料庫讀的壓力,這個時候首先也許會選擇採用squid等類似的機制來將系統中相對靜態的頁面(例如一兩天才會有更新的頁面)進行快取(當然,也可以採用將頁面靜態化的方案),這樣程式上可以不做修改,就能夠很好的減少對webserver的壓力以及減少資料庫連線資源的競爭。OK,於是開始採用squid來做相對靜態的頁面的快取。

  看看這一步完成後系統的圖示:

  

  這一步涉及到了這些知識體系:前端頁面快取技術,例如squid,如想用好的話還得深入掌握下squid的實現方式以及快取的失效演算法等。

  架構演變第三步:增加頁面片段快取

  增加了squid做快取後,整體系統的速度確實是提升了,webserver的壓力也開始下降了,但隨著訪問量的增加,發現系統又開始變的有些慢了,在嚐到了squid之類的動態快取帶來的好處後,開始想能不能讓現在那些動態頁面裡相對靜態的部分也快取起來呢,因此考慮採用類似ESI之類的頁面片段快取策略。OK,於是開始採用ESI來做動態頁面中相對靜態的片段部分的快取。

  看看這一步完成後系統的圖示:

  

  這一步涉及到了這些知識體系:頁面片段快取技術,例如ESI等,想用好的話同樣需要掌握ESI的實現方式等;

  架構演變第四步:資料快取

  在採用ESI之類的技術再次提高了系統的快取效果後,系統的壓力確實進一步降低了,但同樣,隨著訪問量的增加,系統還是開始變慢,經過查詢,可能會發現系統中存在一些重複獲取資料資訊的地方,像獲取使用者資訊等,這個時候開始考慮是不是可以將這些資料資訊也快取起來呢,於是將這些資料快取到本地記憶體,改變完畢後,完全符合預期,系統的響應速度又恢復了,資料庫的壓力也再度降低了不少。

  看看這一步完成後系統的圖示:

  

  這一步涉及到了這些知識體系:快取技術,包括像Map資料結構、快取演算法、所選用的框架本身的實現機制等。

  架構演變第五步: 增加webserver

  好景不長,發現隨著系統訪問量的再度增加,webserver機器的壓力在高峰期會上升到比較高,這個時候開始考慮增加一臺webserver,這也是為了同時解決可用性的問題,避免單臺的webserver down機的話就沒法使用了,在做了這些考慮後,決定增加一臺webserver,增加一臺webserver時,會碰到一些問題,典型的有:1、如何讓訪問分配到這兩臺機器上,這個時候通常會考慮的方案是Apache自帶的負載均衡方案,或LVS這類的軟體負載均衡方案。2、如何保持狀態資訊的同步,例如使用者session等,這個時候會考慮的方案有寫入資料庫、寫入儲存、cookie或同步session資訊等機制等。3、如何保持資料快取資訊的同步,例如之前快取的使用者資料等,這個時候通常會考慮的機制有快取同步或分散式快取。4、如何讓上傳檔案這些類似的功能繼續正常,這個時候通常會考慮的機制是使用共享檔案系統或儲存等。在解決了這些問題後,終於是把webserver增加為了兩臺,系統終於是又恢復到了以往的速度。

  看看這一步完成後系統的圖示:

  

  這一步涉及到了這些知識體系:負載均衡技術(包括但不限於硬體負載均衡、軟體負載均衡、負載演算法、linux轉發協議、所選用的技術的實現細節等)、主備技術(包括但不限於ARP欺騙、linux heart-beat等)、狀態資訊或快取同步技術(包括但不限於Cookie技術、UDP協議、狀態資訊廣播、所選用的快取同步技術的實現細節等)、共享檔案技術(包括但不限於NFS等)、儲存技術(包括但不限於儲存裝置等)。

  架構演變第六步:分庫

  享受了一段時間的系統訪問量高速增長的幸福後,發現系統又開始變慢了,這次又是什麼狀況呢,經過查詢,發現數據庫寫入、更新的這些操作的部分資料庫連線的資源競爭非常激烈,導致了系統變慢,這下怎麼辦呢,此時可選的方案有資料庫叢集和分庫策略,叢集方面像有些資料庫支援的並不是很好,因此分庫會成為比較普遍的策略,分庫也就意味著要對原有程式進行修改,一通修改實現分庫後,不錯,目標達到了,系統恢復甚至速度比以前還快了。

  看看這一步完成後系統的圖示:

  

  這一步涉及到了這些知識體系:這一步更多的是需要從業務上做合理的劃分,以實現分庫,具體技術細節上沒有其他的要求;但同時隨著資料量的增大和分庫的進行,在資料庫的設計、調優以及維護上需要做的更好,因此對這些方面的技術還是提出了很高的要求的。

  架構演變第七步:分表、DAL和分散式快取

  隨著系統的不斷執行,資料量開始大幅度增長,這個時候發現分庫後查詢仍然會有些慢,於是按照分庫的思想開始做分表的工作,當然,這不可避免的會需要對程式進行一些修改,也許在這個時候就會發現應用自己要關心分庫分表的規則等,還是有些複雜的,於是萌生能否增加一個通用的框架來實現分庫分表的資料訪問,這個在ebay的架構中對應的就是DAL,這個演變的過程相對而言需要花費較長的時間,當然,也有可能這個通用的框架會等到分表做完後才開始做,同時,在這個階段可 能會發現之前的快取同步方案出現問題,因為資料量太大,導致現在不太可能將快取存在本地,然後同步的方式,需要採用分散式快取方案了,於是,又是一通考察和折磨,終於是將大量的資料快取轉移到分散式快取上了。

  看看這一步完成後系統的圖示:

  

  這一步涉及到了這些知識體系:分表更多的同樣是業務上的劃分,技術上涉及到的會有動態hash演算法、consistent hash演算法等;DAL涉及到比較多的複雜技術,例如資料庫連線的管理(超時、異常)、資料庫操作的控制(超時、異常)、分庫分表規則的封裝等。

  架構演變第八步:增加更多的webserver

  在做完分庫分表這些工作後,資料庫上的壓力已經降到比較低了,又開始過著每天看著訪問量暴增的幸福生活了,突然有一天,發現系統的訪問又開始有變慢的趨勢了,這個時候首先檢視資料庫,壓力一切正常,之後檢視webserver,發現apache阻塞了很多的請求,而應用伺服器對每個請求也是比較快的,看來是請求數太高導致需要排隊等待,響應速度變慢,這還好辦,一般來說,這個時候也會有些錢了,於是新增一些webserver伺服器,在這個新增webserver伺服器的過程,有可能會出現幾種挑戰:1、Apache的軟負載或LVS軟負載等無法承擔巨大的web訪問量(請求連線數、網路流量等)的排程了,這個時候如果經費允許的話,會採取的方案是購買硬體負載,例如F5、Netsclar、Athelon之類的,如經費不允許的話,會採取的方案是將應用從邏輯上做一定的分類,然後分散到不同的軟負載叢集中;2、原有的一些狀態資訊同步、檔案共享等方案可能會出現瓶頸,需要進行改進,也許這個時候會根據情況編寫符合網站業務需求的分散式檔案系統等;在做完這些工作後,開始進入一個看似完美的無限伸縮的時代,當網站流量增加時,應對的解決方案就是不斷的新增webserver。

  看看這一步完成後系統的圖示:

  

  這一步涉及到了這些知識體系:到了這一步,隨著機器數的不斷增長、資料量的不斷增長和對系統可用性的要求越來越高,這個時候要求對所採用的技術都要有更為深入的理解,並需要根據網站的需求來做更加定製性質的產品。