1. 程式人生 > >Hadoop副本存放策略

Hadoop副本存放策略

副本存放策略: 

    基於機架感知當複製因子為3時,HDFS的放置策略是在編寫器位於datanode上時將一個副本放在本地計算機上,否則放在隨機datanode上,另一個副本放在另一個(遠端)機架上的節點上,最後一個在同一個遠端機架的不同節點上。此策略可以減少機架間寫入流量,從而提高寫入效能。機架故障的可能性遠小於節點故障的可能性; 此策略不會影響資料可靠性和可用性保證。但是,它確實減少了讀取資料時使用的聚合網路頻寬,因為塊只放在兩個唯一的機架而不是三個。使用此策略時,檔案的副本不會均勻分佈在機架上。三分之二的副本位於一個機架上,另外三分之一均勻分佈在剩餘的機架上。此策略可提高寫入效能,而不會影響資料可靠性或讀取效能。

如果複製因子大於3,則隨機確定第4個及以下副本的放置,同時保持每個機架的副本數量低於上限(基本上是(副本-1)/機架+ 2)。

由於NameNode不允許DataNode具有同一塊的多個副本,因此建立的最大副本數是此時DataNode的總數。
我的總結:(簡而言之,副本數的數量要小於等於DataNode的數量)。

來自Apache官網。