HDFS（名稱節點與資料節點）簡介

阿新 • • 發佈：2019-01-29

HDFS：分散式檔案系統把檔案分佈儲存到多個計算機節點上，成千上萬的計算機節點構成計算機叢集

這些節點分為主從節點，主節點可叫作名稱節點（NameNode），從節點可叫作資料節點（DataNode）

HDFS的儲存模式：

HDFS通過塊的模式儲存資料，預設情況下一個塊是64M，把大檔案拆分成多個塊，可以最小化定址開銷
這樣的好處是：
1.支援大規模檔案儲存 : 檔案以塊為單位進行儲存，一個大規模檔案可以被分拆成若干個檔案塊，不同的檔案塊可以被分發到不同的節點上，因此，一個檔案的大小不會受到單個節點的儲存容量的限制，可以遠遠大於網路中任意節點的儲存容量
2.簡化系統設定 : 因為檔案塊大小是固定的，這樣就可以很容易計算出一個節點可以儲存多少檔案塊；其次，方便了元資料的管理，元資料不需要和檔案塊一起儲存，可以由其他系統負責管理元資料
3.適合資料備份 : 每個檔案塊都可以冗餘儲存到多個節點上，大大提高了系統的容錯性和可用性

名稱節點最主要功能

：名稱節點記錄了每個檔案中各個塊所在的資料節點的位置資訊

名稱節點（NameNode）與DataNode的功能：

在HDFS中，名稱節點（NameNode）負責管理分散式檔案系統的名稱空間（Namespace），儲存了兩個核心的資料結構，即FsImage和EditLog
FsImage用於維護檔案系統樹以及檔案樹中所有的檔案和資料夾的元資料
操作日誌檔案EditLog中記錄了所有針對檔案的建立、刪除、重新命名等操作

名稱節點的啟動：
1.在啟動時，系統會將FsImage中的內容載入到記憶體中去，之後再執行EditLog中的操作，使得記憶體中的資料和實際同步，存在記憶體中的支援客戶端的讀。
2.一旦在記憶體中成功建立檔案系統元資料的對映，則建立一個新的FsImage檔案和一個空的EditLog檔案
3.名稱節點起來之後，HDFS中的更新操作會重新寫到EditLog檔案中，因為FsImage檔案一般都很大（GB級別的很常見），
如果所有的更新操作都往FsImage檔案中新增，這樣會導致系統執行的十分緩慢，但是，如果往EditLog檔案裡面寫就不會這樣，
因為EditLog 要小很多。每次執行寫操作之後，且在向客戶端傳送成功程式碼之前，edits檔案都需要同步更新

但為了防止EditLog過大的問題：引入了第二名稱節點（SecondaryNameNode）
第二名稱節點：是HDFS架構中的一個組成部分，它是用來儲存名稱節點中對HDFS 元資料資訊的備份，並減少名稱節點重啟的時間。
SecondaryNameNode一般是單獨執行在一臺機器上

SecondaryNameNode讓EditLog變小的工作流程：
（1）SecondaryNameNode會定期和NameNode通訊，請求其停止使用EditLog檔案，暫時將新的寫操作寫到一個新的檔案edit.new上來，這個操作是瞬間完成，上層寫日誌的函式完全感覺不到差別；
（2）SecondaryNameNode通過HTTP GET方式從NameNode上獲取到FsImage和EditLog檔案，並下載到本地的相應目錄下；
（3）SecondaryNameNode將下載下來的FsImage載入到記憶體，然後一條一條地執行EditLog檔案中的各項更新操作，使得記憶體中的FsImage保持最新；這個過程就是EditLog和FsImage檔案合併；
（4）SecondaryNameNode執行完（3）操作之後，會通過post方式將新的FsImage檔案傳送到NameNode節點上

（5）NameNode將從SecondaryNameNode接收到的新的FsImage替換舊的FsImage檔案，同時將edit.new替換EditLog檔案，通過這個過程EditLog就變小了

工作流程圖：

DataNode：資料節點是分散式檔案系統HDFS的工作節點，負責資料的儲存和讀取，會根據客戶端或者是名稱節點的排程來進行資料的儲存和檢索，並且向名稱節點定期傳送自己所儲存的塊的列表

即HDFS需要實現的方面：
1.相容廉價的硬體裝置
2.流資料讀寫
3.大資料集
4.簡單的檔案模型
5.強大的跨平臺相容性
但這樣面臨的侷限性：
1.不適合低延遲資料訪問
2.無法高效儲存大量小檔案
3.不支援多使用者寫入及任意修改檔案

HDFS（名稱節點與資料節點）簡介

HDFS：分散式檔案系統把檔案分佈儲存到多個計算機節點上，成千上萬的計算機節點構成計算機叢集這些節點分為主從節點，主節點可叫作名稱節點（NameNode），從節點可叫作資料節點（DataNode） HDFS的儲存模式： HDFS通過塊的模式儲存資料，預設情況下一個塊是64M

JavaScript變動事件詳解（刪除節點與插入節點事件）

變動事件 DOM2 級的變動（mutation）事件能在 DOM 中的某一部分發生變化時觸發。常見變動事件主要有： DOMSubtreeModified：在 DOM 結構發生任何變化時觸發。這個事件在其他事件觸發後都會觸發。 DOMNodeInserted：在一個

rac新增新節點的步驟與方法（官方步驟與自我測試）

Extending the Oracle Grid Infrastructure Home to the New NodeNow that the new node has been configured to support Oracle Clusterware, you use Oracle Univer

Ubuntu搭建Openstack平臺（kilo）(五.neutron(二)網路節點與計算節點)

網路節點一.配置引數環境配置 vim /etc/sysctl.conf net.ipv4.ip_forward=1 net.ipv4.conf.all.rp_filter=0 net.ipv4.conf.default.rp_filter

SQL複製資料表（select * into 與 insert into）

SQL複製資料表（select * into 與 insert into） select * into 目標表名 from 源表名 where ..... insert into 目標

tree狀資料葉子節點與根節點等的遞迴轉換

做專案時經常遇到樹狀層級資料。從各個層級資料的轉換查詢等。場景如行業類別的多層級，行政區層級，檢查項類別層級等等。資料結構如 Id Name ParentId #region area樹狀節點的轉化 public List<Area> Convert

Linux學習筆記（演算法與資料結構）之佇列程式碼（C語言）

1、程式碼在VS2010的C++編譯器中編譯通過，可能有極少部分語法不符合C89標準；bool型別無法使用，用int代替 2、由於VS配置問題，沒有分.c和.h檔案書寫；如果要分，最好將Create_Node和Destory_Node加上static關鍵字修飾，他們只會在所

Linux學習筆記（演算法與資料結構）之二叉搜尋樹程式碼（C語言）

1、程式碼在VS2010的C++編譯器中編譯通過，可能有極少部分語法不符合C99標準；bool型別無法使用，用int代替 2、由於VS配置問題，沒有分.c和.h檔案書寫；如果要分，最好將Create_Node和Destory_Node加上static關鍵字修飾，他們只會在所

刪除一堆資料中重複資料的兩種方法（單鏈表與線性表）c++

前言第一次寫部落格，問題雖然簡單，但是我寫的很認真的，，儘量將自己的思路寫的清晰，大神若路過請不要見笑（還望多多指點），真誠的希望我寫的東西能幫助到一些人，有問題或錯誤都可以提，讓我們共同進步！ 1.問題概述在一堆資料中可能存在重複的資料，請將重

R語言學習二（包與資料集）

R語言安裝包什麼是R語言的包？我們可以把它視為一種擴充套件R基本功能的機制，包本身也集成了眾多的函式。在使用R的過程中如果我們要使用某些函式，而當前R裡面沒有的話，我們通常可以去查詢那些與其相關的包，那些包裡面通常已經包含了其他開發者開發好的功能，我們

C#基礎資料型別與位元組陣列（記憶體中的資料格式）相互轉換（BitConverter 類）

在某種通訊協議中（如 Modbus），可能需要把一些基本的資料型別記憶體中的表示形式轉換成以位元組陣列的形式，方便傳送。C/C++中可以利用指標等操作完成，但C#中沒有指標，咋辦呢？可以用BitConverter類啊。 1，把double型別轉換成byte陣列，float型別的話，在1234.5678後加

Hive之DML（資料匯入與資料匯出）操作

總結：資料的匯入 1）hdfs或者本地檔案匯入使用 load 或者建立資料庫的同時指定檔案位置 location 2）從已有hive資料庫中表匯入相應的資料使用 as

機房收費系統之巨集觀聯絡（各窗體與資料表的聯絡）

剛開始的機房收費系統並不是上來就敲程式碼，而是執行已有的exe小程式，看每個表格與資料庫的關係，對整個機房的邏輯進行了梳理，以下是梳理出來的巨集觀聯絡，還算不是標準的流程圖，只是用於自己的邏輯梳理，還希望巨人們可以多多給予指導^_^

利用XShell上傳、下載文件（使用sz與rz命令），超實用！

rec pre xshell 命令方法 font 所有 shel 不包含借助XShell，使用linux命令sz可以很方便的將服務器上的文件下載到本地，使用rz命令則是把本地文件上傳到服務器。其中，對於sz和rz的理解與記憶我用了如下的方法（很多時候容

Chapter six Linked List & Array（鏈表與數組）

play str right 分享經典 integer 頭指針 ted lin 1.reverse-nodes-in-k-group（k組翻轉鏈表）【hard】給你一個鏈表以及一個k,將這個鏈表從頭指針開始每k個翻轉一下。鏈表元素個數不是k的倍數，最後剩余的不用翻轉。

Python之NumPy（axis=0 與axis=1）區分

tail ner def ros som 分享然而 article 本質轉自：http://blog.csdn.net/wangying19911991/article/details/73928172 https://www.zhihu.com/

13、python中的函數（閉包與裝飾器）

屬性新的做的一個 too 實現 inf 高級器）一、嵌套函數函數的內部又再定義另一個函數，這個函數就叫嵌套函數，裏面含函數就叫內部函數。示例：二、返回函數函數可以接收函數對象作為參數，同理函數也能返回一個函數對象作為返回值。

docker集群（二）--portainer+TLS安全連接docker主機（詳細介紹與使用心得）

chm log usr tls term 參考正常 pac 文件中 http://blog.51cto.com/mysky0708/2298049承接上文，在生產中如何安全的鏈接docker主機呢？我們采用TLS秘鑰方式。步驟：第一部分：首先在docker主機上生成秘鑰，

Android小知識-剖析Retrofit前的預備知識（靜態代理與動態代理）

本平臺的文章更新會有延遲，大家可以關注微信公眾號-顧林海，包括年底前會更新kotlin由淺入深系列教程，目前計劃在微信公眾號進行首發，如果大家想獲取最新教程，請關注微信公眾號，謝謝! 代理設計模式主要分為靜態代理與動態代理，代理模式的定義是為其他物件提供一種代理，用以控制對這個物件的訪問。打個比方

python-連線MySQL（mysql.connector與MySQLdb區別）

1.安裝mysql-connector 命令 pip install mysql-connector import mysql.connector cnx = mysql.connector.connect(user='roo