hadoop:搭建Hadoop叢集,一個月6T的數量需要幾臺伺服器 阿新 • • 發佈:2019-01-03 配置幾個namenode,幾個datanode,namenode和datanode怎麼部署,記憶體與硬碟大小?? 最好是兩個做成HA 關於硬碟: 6T的資料容量,看你副本數量設定是多少,一般預設為3,那麼僅這些就需要18T硬碟,稍微大一點20T吧;這僅僅是HDFS儲存;(這裡我說的是一個月的,你資料儲存幾個月,就乘幾倍) 如果你叢集上面要跑計算,MR計算出來的資料要儲存HDFS的,所以,還是要根據你的結果資料來做判斷,大小就看你計算任務了. 一般是這樣計算硬碟大小 (原始資料+中間資料+結果資料)*副本數量=總硬碟大小 關於記憶體: namenode不用說了,主要就是用記憶體儲存block和node之間對應關係的,也是要根據資料大小計算的,6T/Block大小(預設為128M)=有多少block-->M個 一個block佔多少記憶體: 保守地設定每一百萬資料塊需要1000MB記憶體 namenode總記憶體(兆M)=M*1000MB/100萬 datanode的記憶體: 一般問題不大,一般都是用於mr的計算,這個東西根據你效能的需要設定 關於多少臺機器? 根據Task任務的數量和你的效能指標來做決定 一個Block對應一個Mapper任務,上面算出來M個Block了,mapper任務也是那麼多 實際測試一下,一定資料量在x臺機器上執行時間,根據你的指標去評定要多少臺機器 hadoop叢集的效能和節點個數近似成正向關係