SecondaryNamenode的作用詳解

阿新 • • 發佈：2019-01-31

作用

在Hadoop中，有一些命名不好的模組，Secondary NameNode是其中之一。從它的名字上看，它給人的感覺就像是NameNode的備份。但它實際上卻不是。很多Hadoop的初學者都很疑惑，Secondary NameNode究竟是做什麼的，而且它為什麼會出現在HDFS中。因此，在這篇文章中，我想要解釋下Secondary NameNode在HDFS中所扮演的角色。

從它的名字來看，你可能認為它跟NameNode有點關係。沒錯，你猜對了。因此在我們深入瞭解Secondary NameNode之前，我們先來看看NameNode是做什麼的。

NameNode

NameNode主要是用來儲存HDFS的元資料資訊，比如名稱空間資訊，塊資訊等。當它執行的時候，這些資訊是存在記憶體中的。但是這些資訊也可以持久化到磁碟上。

NameNode儲存元資料資訊
上面的這張圖片展示了NameNode怎麼把元資料儲存到磁碟上的。這裡有兩個不同的檔案：

fsimage - 它是在NameNode啟動時對整個檔案系統的快照
edit logs - 它是在NameNode啟動後，對檔案系統的改動序列

只有在NameNode重啟時，edit logs才會合併到fsimage檔案中，從而得到一個檔案系統的最新快照。但是在產品叢集中NameNode是很少重啟的，這也意味著當NameNode運行了很長時間後，edit logs檔案會變得很大。在這種情況下就會出現下面一些問題：
- edit logs檔案會變的很大，怎麼去管理這個檔案是一個挑戰。
- NameNode的重啟會花費很長時間，因為在edit log中有很多改動要合併到fsimage檔案上。如果NameNode掛掉了，那我們就需要大量時間將edit log與fsimage進行合併。[會將還在記憶體中但是沒有寫到edit logs的這部分。]
因此為了克服這個問題，我們需要一個易於管理的機制來幫助我們減小edit logs檔案的大小和得到一個最新的fsimage檔案，這樣也會減小在NameNode上的壓力。這跟Windows的恢復點是非常像的，Windows的恢復點機制允許我們對OS進行快照，這樣當系統發生問題時，我們能夠回滾到最新的一次恢復點上。

現在我們明白了NameNode的功能和所面臨的挑戰 - 保持檔案系統最新的元資料。那麼，這些跟Secondary NameNode又有什麼關係呢？

Secondary NameNode

Secondary NameNode就是來幫助解決上述問題的，它的職責是合併NameNode的edit logs到fsimage檔案中。

這裡寫圖片描述

上面的圖片展示了Secondary NameNode是怎麼工作的。

它定時到NameNode去獲取edit logs，並更新到自己的fsimage上。
一旦它有了新的fsimage檔案，它將其拷貝回NameNode中。
NameNode在下次重啟時會使用這個新的fsimage檔案，從而減少重啟的時間。

Secondary NameNode的整個目的是在HDFS中提供一個檢查點。它只是NameNode的一個助手節點。這也是它在社群內被認為是檢查點節點的原因。

現在，我們明白了Secondary NameNode所做的不過是在檔案系統中設定一個檢查點來幫助NameNode更好的工作。它不是要取代掉NameNode也不是NameNode的備份。所以從現在起，讓我們養成一個習慣，稱呼它為檢查點節點吧。

注：關於NameNode是什麼時候將改動寫到edit logs中的？這個操作實際上是由DataNode的寫操作觸發的，當我們往DataNode寫檔案時，DataNode會跟NameNode通訊，告訴NameNode什麼檔案的第幾個block放在它那裡，NameNode這個時候會將這些元資料資訊寫到edit logs檔案中。

Secondary NameNode 作用

SecondaryNameNode有兩個作用：

映象備份備份fsimage,(fsimage是元資料傳送檢查點時寫入檔案)
日誌與映象的定期合併將Namenode中edits日誌和fsimage合併,防止(如果Namenode節點故障，namenode下次啟動的時候，會把fsimage載入到記憶體中，**應用**edit log,edit log往往很大，導致操作往往很耗時。)

Secondary NameNodeode 工作原理

日誌與映象的定期合併總共分五步：

SecondaryNameNode通知NameNode準備提交edits檔案，此時主節點產生edits.new。
SecondaryNameNode通過http get方式獲取NameNode的fsimage與edits檔案（在SecondaryNameNode的current同級目錄下可見到 temp.check-point或者previous-checkpoint目錄，這些目錄中儲存著從namenode拷貝來的映象檔案）。
SecondaryNameNode開始合併獲取的上述兩個檔案，產生一個新的fsimage檔案fsimage.ckpt。
SecondaryNameNode用http post方式傳送fsimage.ckpt至NameNode
NameNode將fsimage.ckpt與edits.new檔案分別重新命名為fsimage與edits，然後更新fstime，整個checkpoint過程到此結束。

SecondaryNameNode備份由三個引數控制fs.checkpoint.period控制週期，fs.checkpoint.size控制日誌檔案超過多少大小時合併， dfs.http.address表示http地址，這個引數在SecondaryNameNode為單獨節點時需要設定。

相關配置檔案設定

core-site.xml：這裡有2個引數可配置，但一般來說我們不做修改。fs.checkpoint.period表示多長時間記錄一次hdfs的映象。預設是1小時。fs.checkpoint.size表示一次記錄多大的size，預設64M。

<property><name>fs.checkpoint.period</name>
<value>3600</value>
<description>The number of seconds between two periodic checkpoints.
</description>
</property>

<property>
<name>fs.checkpoint.size</name>
<value>67108864</value>
<description>The size of the current edit log (in bytes) that triggers a periodic checkpoint even if the fs.checkpoint.period hasn’t expired.
</description>
</property>

映象備份的週期時間是可以修改的，如果不想一個小時備份一次，可以改的時間短點，修改core-site.xml中的fs.checkpoint.period值。

Import Checkpoint（恢復資料）

如果主節點namenode掛掉了，硬碟資料需要時間恢復或者不能恢復了，現在又想立刻恢復HDFS，這個時候就可以import checkpoint。步驟如下：

準備原來機器一樣的機器，包括配置和檔案，建立一個空的資料夾，該資料夾就是配置檔案中dfs.name.dir所指向的資料夾。拷貝你的secondary NameNode checkpoint出來的檔案，到某個資料夾，該資料夾為fs.checkpoint.dir指向的資料夾（如：/home/hadadm/clusterdir/tmp/dfs/namesecondary）
執行命令bin/hadoop namenode –importCheckpoint這樣NameNode會讀取checkpoint檔案，儲存到dfs.name.dir。但是如果你的dfs.name.dir包含合法的 fsimage，是會執行失敗的。因為NameNode會檢查fs.checkpoint.dir目錄下映象的一致性，但是不會去改動它。

一般建議給maste配置多臺機器，讓namesecondary與namenode不在同一臺機器上值得推薦的是，你要注意備份你的dfs.name.dir和 ${hadoop.tmp.dir}/dfs/namesecondary。

SecondaryNamenode的作用詳解

作用

NameNode

Secondary NameNode

Secondary NameNode 作用

Secondary NameNodeode 工作原理

相關配置檔案設定

Import Checkpoint（恢復資料）

SecondaryNamenode的作用詳解

Python init.py 作用詳解

java虛擬機內存區域的劃分以及作用詳解

ContextLoaderListener作用詳解

jsp 九大內置對象和其作用詳解

Struts2基本包作用詳解

C語言中static關鍵字的作用詳解

連線池的作用詳解

java 中 static 作用詳解

STM32中stm32f0xx_flash.icf檔案的作用詳解！（不錯的！）

C++ 函式指標及其作用詳解

Android SDK 目錄和作用詳解

二級指標的作用詳解

jsp 九大內建物件和其作用詳解

java中的 break continue return作用詳解

Unity3d中特殊資料夾以及作用詳解

vue-router的routes中name屬性作用詳解

Mybatis中@Param的用法和作用詳解

python中reload(sys)作用詳解

SVN客戶端命令及作用詳解

SecondaryNamenode的作用詳解

作用

NameNode

Secondary NameNode

Secondary NameNode 作用

Secondary NameNodeode 工作原理

相關配置檔案設定

Import Checkpoint（恢復資料）

相關推薦