新手指導：hadoop-搭建叢集必備知識：叢集及記憶體配置介紹

阿新 • • 發佈：2019-01-25

1.叢集配置常用配置檔案有哪些？ 2.有哪些控制指令碼,如何檢視這些配置指令碼？ 3.有哪些守護程序？ 4.hadoop的記憶體該如何設定？ 5.如何單獨配置namenode記憶體？ 叢集介紹 1. 配置檔案列表如下： [[email protected] conf]$ pwd
/home/tianyc/hadoop-1.0.4/conf
[[email protected] conf]$ ll
總用量 76
-rw-rw-r--. 1 tianyc NEU 7457 3月 6 10:38 capacity-scheduler.xml
-rw-rw-r--. 1 tianyc NEU 535 3月 6 10:38 configuration.xsl
-rw-rw-r--. 1 tianyc NEU 371 3月 6 14:26 core-site.xml
-rw-rw-r--. 1 tianyc NEU 327 3月 6 10:38 fair-scheduler.xml
-rw-rw-r--. 1 tianyc NEU 2233 3月 6 10:38 hadoop-env.sh
-rw-rw-r--. 1 tianyc NEU 1488 3月 6 10:38 hadoop-metrics2.properties
-rw-rw-r--. 1 tianyc NEU 4644 3月 6 10:38 hadoop-policy.xml
-rw-rw-r--. 1 tianyc NEU 258 3月 6 10:38 hdfs-site.xml
-rw-rw-r--. 1 tianyc NEU 4441 3月 6 10:38 log4j.properties
-rw-rw-r--. 1 tianyc NEU 2033 3月 6 10:38 mapred-queue-acls.xml
-rw-rw-r--. 1 tianyc NEU 270 3月 7 14:45 mapred-site.xml
-rw-rw-r--. 1 tianyc NEU 19 3月 7 11:52 masters
-rw-rw-r--. 1 tianyc NEU 19 3月 6 10:38 slaves
-rw-rw-r--. 1 tianyc NEU 1243 3月 6 10:38 ssl-client.xml.example
-rw-rw-r--. 1 tianyc NEU 1195 3月 6 10:38 ssl-server.xml.example
-rw-rw-r--. 1 tianyc NEU 382 3月 6 10:38 taskcontroller.cfg

2. 常用配置檔案：

hadoop-env.sh：記錄指令碼要用的環境變數。
core-site.xml：Hadoop核心配置項
hdfs-site.xml：Hadoop守護程序配置項，例如namenode，secondarynamenode和datanode等。
mapred-site.xml：MapReduce守護程序配置項，包括jobtracker和tasktracker。
master：執行secondarynamenode（而不是namenode）的機器列表（每行一個）。只在namenode或jobtracker節點上使用，無需同步到各節點。
slave：執行datanode和tasktracker的機器列表（每行一個）。只在namenode或jobtracker節點上使用，無需同步到各節點。

3. 配置管理 hadoop支援為所有的節點採用同一套配置檔案，這樣管理會變得非常簡單，不過這對於某些叢集來說並不適合。例如在擴充套件叢集時，如果新機器的硬體和現有機器不同，則需要為新機器建立一套新的配置檔案，以充分利用新硬體資源。所以，非常推薦在每個節點儲存一套配置檔案，並由管理員完成這些配置檔案的同步工作。hadoop提供了一個基本工具來進行同步配置，即rsync。這種情況下，需要引入“機器類”的概念，為不同的機器類分別維護一套配置檔案。不過hadoop並沒有提供執行這個操作的工具，需要藉助外部工具，例如Chef,Puppet,cfengine和bcfg2等。

4. 控制指令碼

start-dfs.sh：在本地節點啟動namenode，在slave檔案指定的每個節點啟動datanode，在master檔案指定的每個節點啟動secondarynamenode

start-mapred.sh：在本地節點啟動jobtracker，在slave檔案指定的每個節點啟動tasktracker。
start-all.sh：依次呼叫start-dfs.sh和start-mapred.sh
stop-dfs.sh/stop-mapred.sh/stop-all.sh：前面的start指令碼對應的關閉指令碼。
hadoop-daemon.sh：上述指令碼呼叫它來執行啟動和終止hadoop守護程序。如果使用者需要從其他系統或自己編寫指令碼控制hadoop守護程序，可以呼叫它。
hadoop-daemons.sh：用於在多個主機上啟動同一hadoop守護程序。

5. 守護程序管理 對於小型叢集（幾十個節點），可以將namenode、secondarynamenode、jobtracker放到單獨一臺機器上，但對於大型叢集，最好分別放到不同的機器上。

namenode：在記憶體中儲存整個名稱空間的所有檔案和塊元資料，它的記憶體需求很大。
secondnamenode：儲存一份最新的檢查點，記錄檔案系統的元資料，有助於在資料丟失或系統崩潰時恢復namenode的元資料；它在大多時候空閒，但它建立檢查時的記憶體需求和namenode差不多。一旦檔案系統包含大量檔案，單臺主機可能無法同時執行namenode和secondarynamenode。
jobtracker：在一個執行大量mapreduce作業的高負載叢集上，jobtracker會使用大量記憶體和CPU資源，因此它最好執行在一個專用節點上。

HDFS控制指令碼需要在namenode機器上執行；mapreduce控制指令碼需要在jobtracker機器上執行。

記憶體設定 1. 記憶體 hadoop為各個守護程序（namenode,secondarynamenode,jobtracker,datanode,tasktracker）統一分配的記憶體在hadoop-env.sh中設定，引數為HADOOP_HEAPSIZE，預設為1000M。
大部分情況下，這個統一設定的值可能並不適合。例如對於namenode節點，1000M的記憶體只能儲存幾百萬個檔案的資料塊的引用。如果我想單獨設定namenode的記憶體，可以通過HADOOP_NAMENODE_OPTS來設定。
同樣的，可以通過HADOOP_SECONDARYNAMENODE_OPTS來設定secondrynamenode的記憶體，使得它與namenode保持一致。
當然，還有HADOOP_DATANODE_OPTS、HADOOP_BALANCER_OPTS、HADOOP_JOBTRACKER_OPTS變數供你使用。
此外，tasktracker啟動獨立的子JVM以執行map和reduce任務，分配給每個子JVM的記憶體量由mapred.child.java.opts屬性（mapred-site.xml）控制，預設值為200M。

2. 最大map任務數 一個tasktracker能夠同時執行最大map任務數，由mapred.tasktracker.map.tasks.maximum屬性（mapred-site.xml）控制，預設為2。

3. 最大reduce任務數 一個tasktracker能夠同時執行最大reduce任務數，由mapred.tasktracker.reduce.tasks.maximum屬（mapred-site.xml）性控制，預設為2。

4. 小總結：計算節點的記憶體佔用量。 預設情況下，一個同時運行了namenode，secondarynamenode和jobtracker的主節點，各自使用1000M記憶體，所以總計使用3000M。預設情況下，一個從節點運行了如下守護程序：

1個datanode：預設佔用1000M記憶體。
1個tasktracker：預設佔用1000M記憶體。
最多2個map任務：2*200M=400M。
最多2個reduce任務：2*200M=400M。

即預設情況下，一個從節點需要使用2800M記憶體量。
在一個tasktracker上能夠同時執行的任務數取決於這臺機器上有多少個處理器。由於mapreduce作業通常是I/O-bound，因此將任務數設定為超出處理器數也有一定道理，可以獲得更好的利用率。經驗法則是任務總數（map任務數與reduce任務數之和）與處理器的比值在1和2之間。
例如，假設一臺8個處理器的工作節點，每個處理器上執行2個程序，則可以將最大map任務數和最大reduce任務數分別設定成7（因為還有datanode和tasktracker程序，所以不能設定為8），各個JVM子任務可用記憶體設定為400M，則總記憶體開銷=1000M(datanode)+1000M(tasktracker)+7*400M(map)+7*400M(reduce)=7600M 這樣配置是否合理，還需要考慮是否給這臺機器上的其他程序預留了足夠記憶體，否則可能導致各程序在系統中不斷切換，導致效能惡化。可以使用一些工具來監控叢集的記憶體使用情況來進行優化，例如Ganglia工具。
hadoop也可以設定mapreduce操作所能使用的最大記憶體量，這是分別針對各項作業進行設定的。

新手指導：hadoop-搭建叢集必備知識：叢集及記憶體配置介紹

新手指導：hadoop-搭建叢集必備知識：叢集及記憶體配置介紹

程式設計師必備知識：常見進位制轉換

web前端工程師必備知識：TCP/IP

推薦WordPress 必備的常用外掛及外掛功能介紹

Hadoop分散式叢集搭建方法（Version： java 1.8+CentOS 6.3）

新手必備：Hadoop基礎——YARN認知

MacOS：Docker搭建Hadoop叢集

阿里雲ECS伺服器部署HADOOP叢集（一）：Hadoop完全分散式叢集環境搭建

Hadoop初體驗：快速搭建Hadoop偽分布式環境

PHP開發中需要註意幾點事項，新手少走彎路必備知識

深入理解 Java 多線程核心知識：跳槽面試必備

指導手冊03：Hadoop基礎操作

Hadoop新手篇：hadoop入門基礎教程

知識：整合營銷新手入門詳解

零基礎java入門小白如何自學java新手入門必備知識！

本地搭建hadoop叢集--設定ssh免登陸及免登原理

指導手冊03：Hadoop基礎操作.md

大資料：Hadoop新手入門

Hadoop-3.1.1完全分散式叢集搭建

大資料篇：Hadoop叢集統一時間

新手指導：hadoop-搭建叢集必備知識：叢集及記憶體配置介紹

相關推薦