一致性Hash(Consistent Hash)
一致性Hash演算法簡介
一致性Hash演算法是在1997年由麻省理工提出的一種分散式Hash實現演算法,設計的目標是為了解決英特網中的熱點問題。
一致性Hash演算法提出了在動態變化的Cache環境中,判定Hash演算法好壞的四個定義。
- 平衡性(Balance):平衡性是指雜湊的結果能夠儘可能的分佈到所有的節點中去,這樣從演算法上解決負載均衡的問題。
- 單調性(monotonicity):單調性是指在新增或者刪減節點時, 不影響系統正常執行。
- 分散性(Spread):分散性是指資料應該分散地存放在分散式叢集中的各個節點 (節點自己可以有備份) , 不必每個節點都儲存所有的資料。
- 負載(Load)
簡單的Hash演算法
雜湊(hash)計算是常見的資料分佈技術,其通過求模運算來計算雜湊值,然後據此將資料對映到儲存空間中。 設有由 N 個儲存節點組成的儲存空間,採用簡單雜湊計算將一個數據物件 object 對映到儲存空間上的公式為:hash(object)%N。 由於只是採用了簡單的求模運算,使得簡單雜湊計算存在很多不足:
- 增刪節點時,更新效率低。 當系統中儲存節點數量發生增加或減少時,對映公式將發生變化為 hash(object)%(N±1),這將使得所有 object 的對映位置發生變化,整個系統資料物件的對映位置都需要重新進行計算,系統無法對外界訪問進行正常響應,將導致系統處於崩潰狀態。
- 平衡性差,未考慮節點效能差異。 由於硬體效能的提升,新新增的節點具有更好的承載能力,如何對演算法進行改進,使節點效能可以得到較好利用,也是亟待解決的一個問題。
- 單調性不足。
一致性Hash演算法原理
一致性雜湊簡單地說在移除或者新增一個伺服器時, 此演算法能夠儘可能小地改變已存在的服務請求與處理請求伺服器之間的對映關係,儘可能滿足單調性的要求。
在普通分散式叢集中, 服務請求與處理請求伺服器之間可以一一對應, 也就是說固定服務請求與處理伺服器之間的對映關係, 某個請求由固定的伺服器去處理。 這種方式無法對整個系統進行負載均衡, 可能會造成某些伺服器過於繁忙以至於無法處理新來的請求。 而另一些伺服器則過於空閒, 整體系統的資源利用率低, 並且當分散式叢集中的某個伺服器宕機, 會直接導致某些服務請求無法處理。
進一步的改進可以利用 hash 演算法對服務請求與處理伺服器之間的關係進行對映, 以達到動態分配的目的。 普通的Hash演算法採用簡單取模的方式 ,取模後的值就是服務請求對應的請求處理伺服器。這在節點不變的情況下能夠取得讓人滿意的結果,但是在節點動態變化的情況下,這種方式顯然不滿足單調性的需求(當增加或者減少一臺機器時,所有儲存的內容都會被重新雜湊)。
一個設計良好的分散式系統應該具有良好的單調性,即伺服器的新增與移除不會造成大量的雜湊重定位, 而一致性雜湊恰好可以解決這個問題。
一致性Hash演算法的基本實現原理是將機器節點和key值都按照相同的hash演算法對映到一個0-2^32的圓環上。當一個寫入請求到來時,計算Key值k對應的Hash(k),如果該值正好對應之前某個機器節點的Hash值,則直接將資料寫入該機器,如果沒有對應的機器節點,則順時針查詢下一個節點,進行寫入,如果超過2^32還沒找到對應節點,則從0開始查詢。
當Hash環上機器數量比較少時,可能會出現環上機器分部不均勻,導致某些機器需要處理很多資料,而有些機器只能處理很少資料的情況。所以在機器對映時,可以根據機器的處理能力,將一個實體節點對映為多個虛擬節點。
“虛擬節點”( virtual node )是實際節點(機器)在 hash 空間的複製品( replica ),一個實際節點(機器)對應了若干個“虛擬節點”,這個對應個數也成為“複製個數”,“虛擬節點”在 hash 空間中以hash值排列。
經過一致性Hash演算法的雜湊之後,當有新的機器加入時,將隻影響一臺機器的儲存情況。例如新加節點H到A和B之間,則原先由B處理的資料可能將移至H處理,而其他所有節點的處理情況都將保持不變,因此表現出很好的單調性。
如果刪除一臺機器,例如刪除C節點,原先由C處理的資料都將轉移到D節點,而其他節點的處理情況仍然沒變。而由於在機器節點雜湊和快取資料雜湊都採用了相同的雜湊演算法,因此很好的降低了分散性和負載。
通過引入虛擬節點,也大大提高了平衡性。
無虛擬節點一致性Hash Java實現
/**
* @Comment 無虛擬節點一致性Hash實現
* @Author Ron
* @Date 2017年10月27日 上午11:42:09
* @return
*/
public class ConsistentHashNoVirtualNode {
// 待新增入Hash環的伺服器列表
private static String[] servers = { "192.168.1.0:111", "192.168.1.1:111", "192.168.1.2:111", "192.168.1.3:111",
"192.168.1.4:111" };
// key表示伺服器的hash值,value表示伺服器
private static SortedMap<Integer, String> sortedMap = new TreeMap<Integer, String>();
// 程式初始化,將所有的伺服器放入sortedMap中
static {
for (int i = 0; i < servers.length; i++) {
int hash = getHash(servers[i]);
System.out.println("[" + servers[i] + "]加入集合中, 其Hash值為" + hash);
sortedMap.put(hash, servers[i]);
}
System.out.println();
}
// 使用FNV1_32_HASH演算法計算伺服器的Hash值,這裡不使用重寫hashCode的方法,最終效果沒區別
private static int getHash(String str) {
final int p = 16777619;// 32位prime
int hash = (int) 2166136261L;// 32位offset basis
for (int i = 0; i < str.length(); i++)
hash = (hash ^ str.charAt(i)) * p;
hash += hash << 13;
hash ^= hash >> 7;
hash += hash << 3;
hash ^= hash >> 17;
hash += hash << 5;
//如果算出來的值為負數則取其絕對值
if (hash < 0)
hash = Math.abs(hash);
return hash;
}
// 得到應當路由到的結點
private static String getServer(String key) {
// 得到該key的hash值
int hash = getHash(key);
// 得到大於該Hash值的所有Map
SortedMap<Integer, String> subMap = sortedMap.tailMap(hash);
if (subMap.isEmpty()) {
// 如果沒有比該key的hash值大的,則從第一個node開始
Integer i = sortedMap.firstKey();
// 返回對應的伺服器
return sortedMap.get(i);
} else {
// 第一個Key就是順時針過去離node最近的那個結點
Integer i = subMap.firstKey();
// 返回對應的伺服器
return subMap.get(i);
}
}
public static void main(String[] args) {
String[] keys = {"太陽", "月亮", "星星","白雲","藍天"};
for(int i=0; i<keys.length; i++)
System.out.println("[" + keys[i] + "]的hash值為" + getHash(keys[i])
+ ", 被路由到結點[" + getServer(keys[i]) + "]");
}
}
有虛擬節點一致性Hash Java實現
/**
* @Comment 有虛擬節點一致性Hash實現
* @Author Ron
* @Date 2017年10月27日 上午11:42:51
* @return
*/
public class ConsistentHashHasVirtualNode {
// 待新增入Hash環的伺服器列表
private static String[] servers = { "192.168.1.0:111", "192.168.1.1:111", "192.168.1.2:111", "192.168.1.3:111",
"192.168.1.4:111" };
// 真實結點列表,考慮到伺服器上線、下線的場景,即新增、刪除的場景會比較頻繁,這裡使用LinkedList會更好
private static List<String> realNodes = new LinkedList<String>();
// 虛擬節點,key表示虛擬節點的hash值,value表示虛擬節點的名稱
private static SortedMap<Integer, String> virtualNodes = new TreeMap<Integer, String>();
// 虛擬節點的數目,這裡寫死,為了演示需要,一個真實結點對應5個虛擬節點
private static final int VIRTUAL_NODES = 5;
static {
// 先把原始的伺服器新增到真實結點列表中
for (int i = 0; i < servers.length; i++)
realNodes.add(servers[i]);
// 再新增虛擬節點,遍歷LinkedList使用foreach迴圈效率會比較高
for (String str : realNodes) {
for (int i = 0; i < VIRTUAL_NODES; i++) {
String virtualNodeName = str + "&&VN" + String.valueOf(i);
int hash = getHash(virtualNodeName);
System.out.println("虛擬節點[" + virtualNodeName + "]被新增, hash值為" + hash);
virtualNodes.put(hash, virtualNodeName);
}
}
System.out.println();
}
// 使用FNV1_32_HASH演算法計算伺服器的Hash值,這裡不使用重寫hashCode的方法,最終效果沒區別
private static int getHash(String str) {
final int p = 16777619;
int hash = (int) 2166136261L;
for (int i = 0; i < str.length(); i++)
hash = (hash ^ str.charAt(i)) * p;
hash += hash << 13;
hash ^= hash >> 7;
hash += hash << 3;
hash ^= hash >> 17;
hash += hash << 5;
// 如果算出來的值為負數則取其絕對值
if (hash < 0)
hash = Math.abs(hash);
return hash;
}
// 得到應當路由到的結點
private static String getServer(String key) {
// 得到該key的hash值
int hash = getHash(key);
// 得到大於該Hash值的所有Map
SortedMap<Integer, String> subMap = virtualNodes.tailMap(hash);
String virtualNode;
if (subMap.isEmpty()) {
// 如果沒有比該key的hash值大的,則從第一個node開始
Integer i = virtualNodes.firstKey();
// 返回對應的伺服器
virtualNode = virtualNodes.get(i);
} else {
// 第一個Key就是順時針過去離node最近的那個結點
Integer i = subMap.firstKey();
// 返回對應的伺服器
virtualNode = subMap.get(i);
}
// virtualNode虛擬節點名稱要擷取一下
if (virtualNode != null && virtualNode != "") {
return virtualNode.substring(0, virtualNode.indexOf("&&"));
}
return null;
}
public static void main(String[] args) {
String[] keys = {"太陽", "月亮", "星星","白雲","藍天"};
for (int i = 0; i < keys.length; i++)
System.out.println("[" + keys[i] + "]的hash值為" + getHash(keys[i]) + ", 被路由到結點[" + getServer(keys[i]) + "]");
}
}