一句話說清分布式鎖,進程鎖,線程鎖
在分布式集群系統的開發中,線程鎖往往並不能支持全部場景的使用,必須引入新的技術方案分布式鎖。
線程鎖:大家都不陌生,主要用來給方法、代碼塊加鎖。當某個方法或者代碼塊使用鎖時,那麽在同一時刻至多僅有有一個線程在執行該段代碼。當有多個線程訪問同一對象的加鎖方法/代碼塊時,同一時間只有一個線程在執行,其余線程必須要等待當前線程執行完之後才能執行該代碼段。但是,其余線程是可以訪問該對象中的非加鎖代碼塊的。
進程鎖:也是為了控制同一操作系統中多個進程訪問一個共享資源,只是因為程序的獨立性,各個進程是無法控制其他進程對資源的訪問的,但是可以使用本地系統的信號量控制(操作系統基本知識)。
分布式鎖:
原文和作者一起討論:http://www.cnblogs.com/intsmaze/p/6384105.html
分布式鎖到底是什麽,怎麽實現?
intsmaze說簡單點,實現分布式鎖必須要依靠第三方存儲介質來存儲鎖的元數據等信息。比如分布式集群要操作某一行數據時,這個數據的流水號是唯一的,那麽我們就把這個流水號作為一把鎖的id,當某進程要操作該數據時,先去第三方存儲介質中看該鎖id是否存在,如果不存在,則將該鎖id寫入,然後執對該數據的操作;當其他進程要訪問這個數據時,會先到第三方存儲介質中查看有沒有這個數據的鎖id,有的話就認為這行數據目前已經有其他進程在使用了,就會不斷地輪詢第三方存儲介質看其他進程是否釋放掉該鎖;當進程操作完該數據後,該進程就到第三方存儲介質中把該鎖id刪除掉,這樣其他輪詢的進程就能得到對該鎖的控制。
說了這麽多,再補充一點,線程鎖,進程鎖,分布式鎖的作用都是一樣的,只是作用的範圍大小不同。範圍大小:分布式鎖——大於——進程鎖——大於——線程鎖。能用線程鎖,進程鎖情況下使用分布式鎖也是可以的,能用線程鎖的情況下使用進程鎖也是可以的。只是範圍越大技術復雜度就越大。
多年j2EE開發生涯從未感覺到分布式鎖的痛點!!!
關於分布式鎖,有過javaEE開發經驗的就會說了,系統為了應對高並發,會搭建一個比如tomcat集群,集群內服務都是訪問的同一臺數據庫,有多臺服務器同時修改同一條數據庫數據的操作,但是我們並沒有在服務器中使用分布式鎖?按照上面對分布式鎖的解釋,兩個不同系統上的JVM進程同時訪問數據庫的同一個資源,這個時候我們應該使用分布式鎖進行控制。
這說的沒有錯,但是我們忘記了數據庫的特性了。如果兩臺服務器僅僅是直接訪問(通過url)並操作某臺服務器硬盤中某個文件同一行數據,這個時候我們必須用分布式鎖。但是因為這兩臺服務器訪問的數據是存儲在數據庫中的(數據庫本身就是一個服務程序,多線程的接收外部系統發來的請求),兩臺服務器的請求通過網絡IO發送到數據庫服務器後,然後把請求交給數據庫服務的進程處理,數據庫服務器是多線程接收請求並處理的,這個時候關於某表某一行數據的多線程訪問控制是由數據庫服務進行控制的(就是數據庫服務的代碼中進行了線程上的加鎖處理),這就是數據庫服務器的行鎖等特性,因為數據庫那一端已經對外部多個系統的請求進行了一個鎖操作,所以不需要我們在應用服務端進行分布式鎖的開發。
那如果想同時更新數據庫的多行數據,這個時候數據庫的行鎖就無法保證了。這個時候我們就要使用分布式鎖,是的這個時候就可以使用,註意我用的是可以。為什麽說可以呢?因為數據庫本身就提供了這個機制,事務以及他的隔離級別。當然你也可以不用數據庫提供的事務,用分布式鎖。
分布式鎖的設計不需要考慮業務嗎?
分布式鎖的設計並不是完全美好的,只能針對某些業務場景下使用,如果要對所有業務使用,必須充分理解業務需求合理的設計,至於原因就和各位j2ee開發時mybatis的二級緩存以命名空間為單位所要註意的業務問題時一樣的。
intsmaze使用分布式鎖,我們會把某表的第二第三行作為id來鎖住,如果有相同的操作時更新該表第二第三行,我們才不讓他修改,必須讓他拿到鎖才可以。但是如果有個操作僅僅是修改第二行,這個時候他就獲得了對該行的操作,而且等數據庫釋放掉之前操作對該行的鎖後。所以分布式鎖並不是隨處可用的,只是在某些場景下可以使用。比如業務系統不會存在單獨修改第二行的操作。
分布式鎖用於hbase存儲系統
實際開發場景中,我們會對hbase操作進行分布式鎖,hbase作為一款優秀的非內存數據庫,傳統數據庫一樣提供了事務的概念,只是HBase的事務是行級事務,可以保證行級數據的原子性、一致性、隔離性以及持久性,即通常所說的ACID特性。為了實現事務特性,HBase采用了各種並發控制策略,包括各種鎖機制、MVCC機制等。因為hbase只支持行級事物,當業務需要並發操作兩行甚至多行記錄時,hbase本身就無法提供ACID的支持了。
數據庫訪問量過大除了主從還能如何負載壓力?
數據庫會為客戶端的每一個請求創建一個線程,這些線程針對特定行數據修改必須獲得該行的行鎖,而其他客戶端線程要想修改該數據的話,必須等待前面的線程釋放鎖後才被允許。如果客戶端很多線程都要修改某行數據的話,沒有拿到鎖的線程都會在數據庫端機器上不斷輪詢,增大數據庫端的壓力。
我們可以使用分布式鎖,把對數據庫行鎖的等待獲取的輪詢放到每一個客戶端機器上去實現,這樣可以避免數據庫端線程的不斷輪詢。比如,客戶端在要發送對數據庫的某行數據的操作請求前,在客戶端機器上進行鎖的爭搶,沒有獲取到鎖,就不會像數據庫端發送操作請求,這樣數據庫端就沒有了輪詢的壓力。當然分布式鎖的引入一定要結合業務的需求來進行設計,不然會出現鎖id的命名不全導致讀取的數據不一致,數據過期失效等問題。
使用那種第三方介質存放分布式鎖?
目前流行的是zookeeper和redis,兩者各有好處,redis流行的內存緩存,且能進行水平擴容同時還能提高請求負載,面對高並分布式鎖數據的讀寫請求能高速響應,同時有aof,哨兵機制可以防止某臺宕機分布式鎖數據丟失帶來的問題。
zookeeper我是比較喜歡,因為他是分布式一致性算法paxos算法的實現,面對高負載請求毫無壓力,同時某一臺宕機毫不影響分布式鎖數據一致性,且附帶了監聽機制,當某一程序釋放某一個鎖後,其他程序可以及時得到通知來獲得對該分布式鎖的控制權,這裏的輪詢實現不需要我們去開發了。
關於分布式鎖與線程鎖的介紹從一年前就在編輯中,一直沒有時間以一種通俗明了的方式介紹給大家。本人在很多論壇中發現很多剛入大數據領域的新人都會提到分布式鎖,但是並沒有深刻明白分布式鎖和線程鎖的場景,以至於很多情況下明明線程鎖就可以搞定的卻引入了分布式鎖,讓整個系統設計的更加復雜了。
另外要說的,zookeeper筆者認為是很棒的技術,雖然在大數據領域只是作為某一個框架的一個協調者出現,導致很多開發者忽視了他的偉大性。但是我想說的,在當前火熱的微服務中,其實會借助zookeeper實現很多功能,比如分布式鎖,配置中心。
一句話說清分布式鎖,進程鎖,線程鎖