1. 程式人生 > >巨人大哥談緩存在高並發場景下使用法則

巨人大哥談緩存在高並發場景下使用法則

查詢 遇到 阿裏 策略 ebo pst 直播 問題: 對象

巨人大哥談緩存在高並發場景下使用法則

緩存一致性問題

當數據時效性要求很高時,需要保證緩存中的數據與數據庫中的保持一致,而且需要保證緩存節點和副本中的數據也保持一致,不能出現差異現象。這就比較依賴緩存的過期和更新策略。一般會在數據發生更改的時,主動更新緩存中的數據或者移除對應的緩存。

技術分享圖片

緩存並發問題

緩存過期後將嘗試從後端數據庫獲取數據,這是一個看似合理的流程。但是,在高並發場景下,有可能多個請求並發的去從數據庫獲取數據,對後端數據庫造成極大的沖擊,甚至導致 “雪崩”現象。此外,當某個緩存key在被更新時,同時也可能被大量請求在獲取,這也會導致一致性的問題。那如何避免類似問題呢?我們會想到類似“鎖”的機制,在緩存更新或者過期的情況下,先嘗試獲取到鎖,當更新或者從數據庫獲取完成後再釋放鎖,其他的請求只需要犧牲一定的等待時間,即可直接從緩存中繼續獲取數據。

技術分享圖片

緩存穿透問題

緩存穿透在有些地方也稱為“擊穿”。很多朋友對緩存穿透的理解是:由於緩存故障或者緩存過期導致大量請求穿透到後端數據庫服務器,從而對數據庫造成巨大沖擊。

這其實是一種誤解。真正的緩存穿透應該是這樣的:

在高並發場景下,如果某一個key被高並發訪問,沒有被命中,出於對容錯性考慮,會嘗試去從後端數據庫中獲取,從而導致了大量請求達到數據庫,而當該key對應的數據本身就是空的情況下,這就導致數據庫中並發的去執行了很多不必要的查詢操作,從而導致巨大沖擊和壓力。

可以通過下面的幾種常用方式來避免緩存傳統問題:

  1. 緩存空對象

對查詢結果為空的對象也進行緩存,如果是集合,可以緩存一個空的集合(非null),如果是緩存單個對象,可以通過字段標識來區分。這樣避免請求穿透到後端數據庫。同時,也需要保證緩存數據的時效性。這種方式實現起來成本較低,比較適合命中不高,但可能被頻繁更新的數據。

  1. 單獨過濾處理

對所有可能對應數據為空的key進行統一的存放,並在請求前做攔截,這樣避免請求穿透到後端數據庫。這種方式實現起來相對復雜,比較適合命中不高,但是更新不頻繁的數據。

技術分享圖片

緩存顛簸問題

緩存的顛簸問題,有些地方可能被成為“緩存抖動”,可以看做是一種比“雪崩”更輕微的故障,但是也會在一段時間內對系統造成沖擊和性能影響。一般是由於緩存節點故障導致。業內推薦的做法是通過一致性Hash算法來解決。這裏不做過多闡述,可以參照其他章節

緩存的雪崩現象

緩存雪崩就是指由於緩存的原因,導致大量請求到達後端數據庫,從而導致數據庫崩潰,整個系統崩潰,發生災難。導致這種現象的原因有很多種,上面提到的“緩存並發”,“緩存穿透”,“緩存顛簸”等問題,其實都可能會導致緩存雪崩現象發生。這些問題也可能會被惡意攻擊者所利用。還有一種情況,例如某個時間點內,系統預加載的緩存周期性集中失效了,也可能會導致雪崩。為了避免這種周期性失效,可以通過設置不同的過期時間,來錯開緩存過期,從而避免緩存集中失效。

從應用架構角度,我們可以通過限流、降級、熔斷等手段來降低影響,也可以通過多級緩存來避免這種災難。

此外,從整個研發體系流程的角度,應該加強壓力測試,盡量模擬真實場景,盡早的暴露問題從而防範。

技術分享圖片

針對上面的技術我特意整理了一下,有很多技術不是靠幾句話能講清楚,所以幹脆找朋友錄制了一些視頻,很多問題其實答案很簡單,但是背後的思考和邏輯不簡單,要做到知其然還要知其所以然。如果想學習Java工程化、高性能及分布式、深入淺出。微服務、Spring,MyBatis,Netty源碼分析的朋友可以加我的Java進階群:433540541,群裏有阿裏大牛直播講解技術,以及Java大型互聯網技術的視頻免費分享給大家。

緩存無底洞現象

該問題由 facebook 的工作人員提出的, facebook 在 2010 年左右,memcached 節點就已經達3000 個,緩存數千 G 內容。

他們發現了一個問題---memcached 連接頻率,效率下降了,於是加 memcached 節點,

添加了後,發現因為連接頻率導致的問題,仍然存在,並沒有好轉,稱之為”無底洞現象”。

技術分享圖片

目前主流的數據庫、緩存、Nosql、搜索中間件等技術棧中,都支持“分片”技術,來滿足“高性能、高並發、高可用、可擴展”等要求。有些是在client端通過Hash取模(或一致性Hash)將值映射到不同的實例上,有些是在client端通過範圍取值的方式映射的。當然,也有些是在服務端進行的。但是,每一次操作都可能需要和不同節點進行網絡通信來完成,實例節點越多,則開銷會越大,對性能影響就越大。

主要可以從如下幾個方面避免和優化:

  1. 數據分布方式

有些業務數據可能適合Hash分布,而有些業務適合采用範圍分布,這樣能夠從一定程度避免網絡IO的開銷。

  1. IO優化

可以充分利用連接池,NIO等技術來盡可能降低連接開銷,增強並發連接能力。

  1. 數據訪問方式

一次性獲取大的數據集,會比分多次去獲取小數據集的網絡IO開銷更小。

當然,緩存無底洞現象並不常見。在絕大多數的公司裏可能根本不會遇到

巨人大哥談緩存在高並發場景下使用法則