Hadoop 1.x HDFS理論和底層原理

阿新 • • 發佈：2019-02-16

1、 NameNode：儲存元資料，存放檔案資訊，檔案密度越大，其佔有空間越大，記憶體硬碟各一份，執行時載入到記憶體中，包含了檔案資訊、塊對映，DataNode對映等對映關係；
響應客戶請求，並轉移到對應的DataNode進行相應的操作。
2、 DataNode：儲存檔案內容的，儲存於硬碟中；
3、一個NameNode對應多個DataNode；提供副本備份機制（架構感知策略）
4、故障檢測：
DataNode：心跳檢測，資料完整性檢測，塊報告
NameNode：日誌檔案，映象檔案
5、空間回收機制
6、操作檔案要對NameNode和DataNode兩個節點一起操作，保證兩個節點的對應關係的統一性
7、 Shell命令操作：
ls，lsr
mkdir，cp，rm
chmod，chown
cat，mv，put，get，tail
8、 HDFS缺點：

9、 Secondary NameNode作用及執行流程：

把NameNode的edits和fsimage通過網路拷貝到Secondary NameNode中，這個之前先把NameNode的edits建立一個新的來儲存從這個時點開始的可能的使用者操作，之後將二者進行合併再把合併完成的fsimage.ckpt傳回NameNode，並覆蓋原來的fsimage，完成記憶體中的NameNode資料和fsimage資料的同步（不是及時性的）。（並不把新的fsimage重新讀入記憶體，因為記憶體中時刻是最新的，這個操作意味著Secondary NameNode有一定的備份功能，但是隻能備份最新的這次的fsimage，NameNode宕機時能夠找回大部分資料而已）。
Edits和fsimage的同步操作有兩個觸發途徑：3600秒固定觸發一次，edits達到64M的時候觸發（值可通過配置檔案設定）。
10、 Block副本放置策略：使用者上傳檔案先放在一個DataNode，接下來DataNode負責將該副本複製到另一臺機架的伺服器上，第三個副本放在第二個副本相同機架的另一臺伺服器，再有多餘的副本隨機放置。
HDFS啟動時，先進入安全模式（其實是初始化模式），讀取硬碟上的fsimage等檔案資訊，讀取到記憶體中，初始化整個系統，這個過程中如果訪問檔案會發生錯誤。
DataNode會定時向NameNode傳送心跳包，如果NameNode發現某個DataNode發生lost了，會通知其他的DataNode把故障DataNode的Block資訊在其他的DataNode複製一份，保證檔案Block的副本數不變。
11、 HDFS讀寫流程：

客戶端連線伺服器，訪問檔案系統，檔案系統訪問NameNode獲取檔案的Block對映資訊，再通過檔案流系統訪問併發訪問所有Block。
12、 HDFS檔案許可權：和linux一樣，有三組rwx許可權，對檔案的x許可權無意義。
注：HDFS只防止好人做錯事，不防止壞人做壞事，不做使用者密碼認證。
13、安全模式：

Hadoop 1.x HDFS理論和底層原理

1、 NameNode：儲存元資料，存放檔案資訊，檔案密度越大，其佔有空間越大，記憶體硬碟各一份，執行時載入到記憶體中，包含了檔案資訊、塊對映，DataNode對映等對映關係；響應客戶請求，並轉移到對應的DataNode進行相應的操作。 2、 DataNode：儲存檔案內容的，儲存於硬碟中；

Hadoop 2.x HDFS使用和配置步驟

hdfs-site.xml配置： 1．配置dfs.nameservices：配置叢集唯一名稱，相當於是ZooKeeper的地址 2．配置dfs.ha.namenodes.[nameservicesID]：配置該nameservices下的多個namenode（包括主備namenode） 3．

TreeSet使用和底層原理_Comparable介面

TreeSet 底層實際是 TreeMap 實現的，內部維持了一個簡化版的 TreeMap,通過 key 來儲存 Set 的元素。 TreeSet 內部需要對儲存的元素進行排序，因此，我們對應的類需要四線 Comparable 介面。這樣才能根據 compareTo() 方法比較物件之間的大小，

Hadoop權威指南---HDFS簡介和java API操作

目錄 Hadoop分散式檔案系統 1、HDFS的設計 HDFS的特點超大檔案，目前已經有PB級資料的Hadoop叢集；流式資料訪問，一次寫入、多次讀取；

TreeMap使用和底層原理_Comparable介面_HashTable特點

TreeMap是紅黑二叉樹的典型實現，我們開啟TreeMap的原始碼，發現裡面有一行核心程式碼： root用來儲存整樹的根節點。我們繼續跟蹤Entry（是TreeMap的內部類）的程式碼：（jdk1.6）,1.8版本中為Node， TreeMap 和 HashM

程式設計師練級攻略（2018）：前端基礎和底層原理

這個是我訂閱陳皓老師在極客上的專欄《左耳聽風》,我整理出來是為了自己方便學習，同時也分享給你們一起學習，當然如果有興趣，可以去訂閱，為了避免廣告嫌疑，我這就不多說了！以下第一人稱是指陳皓老師。對於前端的學習和提高，我的基本思路是這樣的。首先，前端的三個最基本的

docker學習-02組成和底層原理

Docker的基本組成：映象（image）：一個只讀的模板。映象可以用來建立 Docker 容器，一個映象可以建立很多容器。

Hadoop 1.x 下載、安裝

首先我們下載hadoop的版本，我學習是用的hadoop 1.x的版本如果想要嘗試其他版本，課自行選擇下載地址下載完之後，我們上傳到Linux上我用Xshell上傳，當然也可以用SecureCRT/SecureFX來上傳當然，在安裝hadoop

CAS 5.1.x 的搭建和使用（四）—— 配置使用HTTP協議訪問的服務端

本文轉自：http://www.cnblogs.com/flying607/p/7605158.html這節比較簡單。前面第一篇說道了配置HTTPS訪問需要三件事：2、配置Tomcat使用該keystore來支援https3、客戶端的jre的證書倉庫（cacerts）要加上該

CAS 5.1.x 的搭建和使用（二）—— 通過Overlay搭建服務端-其它配置說明

#STEP 3 在TOMCAT8.5中跑一個模板然後將其war包中解壓出來的的application.properties複製出來，放到手動建立的src下的resources裡面 ## # CAS Server Context Configuration # server.context-path=/cas

CAS 5.1.x 的搭建和使用（三）—— 通過官方示例來熟悉客戶端搭建

原文地址：http://www.cnblogs.com/flying607/p/7601177.html 這裡主要有兩件事要做：第一個就是給客戶端的jre新增和服務端對應的證書之前我們已經生成了一個keystore，我們就直接使用這個keystore生成一個證書，命

PHP執行機制和底層原理

用一個工具，懂其原理，知其構造，用起來會更加得心應手。 PHP執行機制： PHP總共三個模組： a.PHP核心：用來處理請求、檔案流、錯誤處理等相關操作 b.zend引擎：用以將原始檔轉換成機器語言，然後在虛擬機器上執行它

Neo4j圖資料庫簡介和底層原理

http://www.cnblogs.com/bonelee/p/6211290.html現實中很多資料都是用圖來表達的，比如社交網路中人與人的關係、地圖資料、或是基因資訊等等。RDBMS並不適合表達這類資料，而且由於海量資料的存在，讓其顯得捉襟見肘。NoSQL資料庫的興起，

Spring data jpa的高階查詢的應用和底層原理分析

spring data jpa的查詢目前比較簡單的查詢：三種查詢方案的寫法固定引數查詢 interface XxxRepo implements JpaRepository<T,Long>{ EntityXxx findByNameAnd

Storm學習(1)——基本的概念和工作原理

一、基本概念 1.相較於hadoop的優勢相對於hadoop而言，strom的優勢在於對於應對大資料兩的實時資料處理上，因為hadoop在處理大資料過程中高延時的特點使得其面對實時資料缺乏足夠的應對策略，目前strom已經被廣泛的應用在諸如金融系統，實時

Hadoop 2.x Hdfs Shell 命令

簡單介紹下HDFS的shell命令，和Hadoop 1.x差不多 a) 建立檔案目錄：hdfs dfs -mkdir /data04 b) 檢視： hdfs dfs -ls / c) 上傳檔案：hdfs dfs -pu

面試官：說說一條查詢sql的執行流程和底層原理？

序章自我介紹我是一條sql，就是一條長長的字串，不要問我長什麼樣，因為我比較傲嬌。額~~不是我不

MySQL索引及優化（1）儲存引擎和底層資料結構

在昨天的面試中問到了MySQL索引怎麼優化（查詢很慢怎麼辦），回答的很不理想，所以今天來總結幾篇關於MySQL索引的知識。 1.什麼是索引？首先我們一定要明確什麼是索引？我自己的總結就是索引是一種資料結構，可以幫助我們快速訪問資料庫的指定資訊，就像一本書的目錄一樣，可以加快查詢速度 2.MySQl儲存引擎

大資料學習-Hadoop生態章---HDFS完全分散式(1.X版本)搭建及eclipse外掛整合

完全分散式搭建(1.x版) 一.環境的準備（詳情參考Linux章） Linux 環境 JDK 準備至少3臺機器（通過克隆虛擬機器；配置好網路JDK 時間 hosts，保證節點間能互ping通）時間同步 (ntpdate time.nist.gov)

Ubuntu上使用Hadoop 2.x 一 hdfs超級使用者建立和設定

本系列介紹安裝Hadoop 2.2.0 single node。本文介紹的是HDFS的超級使用者hduser的建立過程，HDFS的設計讓啟動namenode的使用者成為超級使用者。首先準備一個虛擬機器，Ubuntu 12.04.4Java環境：[email prot