管理檔案儲存的元資料
- 元資料包括了檔案的資訊、大小。檔案的上傳時間、作者、檔案在那個DataNode上儲存
- 元資料中還包含了檔案義工分成了幾個板塊，每個板塊在那個DataNode上儲存著
- 但是 NameNode 只儲存這些資訊，檔案中真正的內容 NameNode 不儲存，主要由 DataNode 儲存
NameNode 也管理檔案的上傳和下載操作，作為客戶端的請求響應

2. DataNode （資料節點 / 從節點）

HDFS 儲存的檔案最終是有DataNode節點儲存的

檔案儲存的時候，DataNode並不是把檔案直接儲存的，而是將檔案按照檔案大小劃分為有一個的block塊，檔案都是以block塊去在DataNode上儲存的

Hadoop 1.x 預設是64M

Hadoop 2.x 預設是128M

block塊大小預設是128M，但是可以更改，在hdfs-site.xml中配置一個配置項 dfs.blocksize 即可（注意單位是B位元組）

Notes：HDFS預設有一個備份機制，儲存一個檔案的時候，劃分成不同的 block 塊，每一個 block

塊都會備份，預設HDFS備份三份，可以通過修改 hdfs-site.xml 中配置一個配置項 dfs.replication 即可

3. SecondaryNameNode （第二名稱節點）

是NameNode的小助手，幫助 NameNode 去合併日誌檔案和映象檔案。但是注意 SecondaryNameNode 雖然叫第二名稱節點，但它永遠是第二，永遠代替不了 NameNode。而且在一般情況下，NameNode 和 SecondaryNameNode 在分散式環境下不在一臺節點下NameNode 和 SecondaryNameNode、DataNode 都是需要記憶體執行的

四、HDFS傳輸檔案方式

HDFS是一個分散式檔案儲存系統，那麼必須可以上傳檔案和下載檔案

不管是通過命令去操作，還是 Java API操作，都必須把 HDFS叢集啟動起來

通過 HDFS 命令的方式上傳和下載

語法：

hdfs 操作符檔案相關資訊

Notes：HDFS是一個分散式檔案儲存系統，檔案系統路徑也是從 / 這個根路徑開始，只不過 / 根路徑預設是沒有任何檔案的

案例：

# 檢視這個路徑下有哪些檔案和資料夾
hdfs dfs -ls / hdfs 上的資料夾路徑           
 
#  建立某個資料夾，如果這個資料夾有父目錄，父目錄不存在，則會報錯
hdfs dfs -mkdir 檔名                               
 
# 若要在空目錄下建立目錄，需要加 -p 選項
hdfs dfs -mkdir -p 檔名 
 
# 將Linux本地的檔案上傳到HDFS指定目錄下
hdfs dfs -put linux本地檔案路徑 /上傳檔案路徑
 
# 將HDFS上的一個檔案下載到Linux本地
hdfs dfs -get /HDFS上的要下載的路徑 Linux本地的路徑

五、HDFS常用命令

-help：輸出這個命令引數

bin/hdfs dfs -help rm

hadoop fs -ls /

-mkdir：在hdfs上建立目錄

# -p引數代表遞迴建立
hadoop fs -mkdir -p /aaa/bbb/cc/dd

-moveFromLocal從本地剪下貼上到hdfs

hadoop fs - moveFromLocal /home/hadoop/a.txt /aaa/bbb/cc/dd

-moveToLocal：從hdfs剪下貼上到本地（尚未實現)

[uek@node2 hadoop-2.8.5]$ hadoop fs -help moveToLocal
-moveToLocal <src> <localdst> :
Not implemented yet

--appendToFile ：追加一個檔案到已經存在的檔案末尾

hadoop fs -appendToFile ./hello.txt /hello.txt

-cat ：顯示檔案內容

hadoop fs -cat /aaa/bbb/cc/dd/test.txt

-tail：顯示一個檔案的末尾

hadoop fs -tail /weblog/access_log.1

-chgrp 、-chmod、-chown：linux檔案系統中的用法一樣，修改檔案所屬許可權

hadoop fs -chmod 666 /hello.txt
hadoop fs -chown someuser:somegrp /hello.txt

-copyFromLocal：從本地檔案系統中拷貝檔案到hdfs路徑去：

```sh
hadoop fs -copyFromLocal ./jdk.tar.gz /aaa/

-copyToLocal：從hdfs拷貝到本地

hadoop fs -copyToLocal /user/hello.txt ./hello.txt

-cp ：從hdfs的一個路徑拷貝到hdfs的另一個路徑

hadoop fs -cp /aaa/jdk.tar.gz /bbb/jdk.tar.gz.2

hadoop fs -mv /aaa/jdk.tar.gz /

-get：等同於copyToLocal，就是從hdfs下載檔案到本地

hadoop fs -get /user/hello.txt ./

-getmerge ：合併下載多個檔案，比如hdfs的目錄 /aaa/下有多個檔案:log.1, log.2,log.3,…

hadoop fs -getmerge /aaa/log.* ./log.sum

-put：等同於copyFromLocal

hadoop fs -put /aaa/jdk.tar.gz /bbb/jdk.tar.gz.2

-rm：刪除檔案或資料夾

hadoop fs -rm -r /aaa/bbb/

hadoop fs -rmdir /aaa/bbb/ccc

-df ：統計檔案系統的可用空間資訊

hadoop fs -df -h /

-du：統計資料夾的大小資訊

[uek@node2 hadoop-2.8.5]$ hadoop fs -du -s -h /user/uek/wcinput 188.5 M /user/uek/wcinput [uek@node2 hadoop-2.8.5]$ hadoop fs -du -h /user/uek/wcinput 188.5 M /user/uek/wcinput/hadoop-2.8.5.tar.gz 97 /user/uek/wcinput/wc.input

-count：統計一個指定目錄下的檔案節點數量

hadoop fs -count /aaa/ [uek@node2 hadoop-2.8.5]$ hadoop fs -count /user/uek/wcinput 1 2 197657784 /user/uek/wcinput 巢狀檔案層級；包含檔案的總數

-setrep：設定hdfs中檔案的副本數量

hadoop fs -setrep 3 /aaa/jdk.tar.gz

# 這裡設定的副本數只是記錄在namenode的元資料中，是否真的會有這麼多副本，還得看datanode的數量。因為目前只有3臺裝置，最多也就3個副本，只有節點數的增加到10臺時，副本數才能達到10。

六、如何實現啟動HDFS和yarn的時候不輸入密碼

　　解決方式就是讓電腦知道自己的登入密碼或者是別的電腦的登入密碼這樣的花啟動的時候就不需要輸入密碼；

　　配置ssh免金鑰登入----配置不使用密碼可以登入

　　核心思想：就是在當前使用者的家目錄的.ssh目錄下生成一個公鑰和私鑰

　　然後講公鑰傳給別人 那麼別人再去登入你的時候就可以不用輸入密碼了

　　1、生成金鑰

　　必須在~/.ssh這個目錄下執行命令 ssh-keygen -t rsa

　　2、怎麼把密碼給別人

　　ssh-copy-id 你要給的主機ip

HDFS（Hadoop Distributed File System ）概述

目錄一、HDFS概述二、HDFS特點三、HDFS叢集組成：主從架構---一個主節點，多個從節點

NFS（Network File System）網路檔案系統

一、簡介 NFS（Network File System）即網路檔案系統，它允許網路中的計算機之間通過網路共享資源。將NFS主機分享的目錄，掛載到本地客戶端當中，本地NFS的客戶端應用可以透明地讀寫位於遠端NFS伺服器上的檔案，在客

RDBMS 術語（關係資料庫管理系統（Relational Database Management System））

RDBMS 術語資料庫: 資料庫是一些關聯表的集合。資料表: 表是資料的矩陣。在一個數據庫中的表看起來像一個簡單的電子表格。

Winform程式打包工具NSIS（Nullsoft Scriptable Install System）

NSIS（Nullsoft Scriptable Install System）是一個開源的 Windows 系統下安裝程式製作程式。它提供了安裝、解除安裝、系統設定、檔案解壓縮等功能。這如其名字所指出的那樣，NSIS 是通過它的指令碼語言來描述安裝程

Hadoop 完全分散式（Fully Distributed）安裝

原文地址：www.inlighting.org/2019/instal… 本篇文章主要介紹如何搭建完全分散式的 Hadoop 叢集，介於 Hadoop 配置複雜，特此寫下此篇文章記錄。

檔案描述符fd（File Descriptor）簡介

之前看一些Linux網路程式設計的文章的時候老是會遇到檔案描述符fd這個東西，也沒太搞清楚。看了下面這篇文章講的還不錯，記錄下來吧。

HDFS（二）高可用架構

引言在 hadoop 1.x 的 HDFS 框架中只存在一個 namenode 節點，當這個 namenode 節點出現記憶體溢位、宕機等意外情況之後，整個系統就會停止服務，直到我們重啟這個 namenode 節點。為瞭解決這個問題，在 hadoop2.x

HDU多校2020 第八場 1012/6866--Linuber File System（樹上DP

題意：http://acm.hdu.edu.cn/showproblem.php?pid=6866 每個節點都有值域區間，一開始每個點值都為0，你每次可以選一個子樹都+x，-x，0（任意），問最終所有節點滿足值域的最小操作次數。

檔案上傳（File Upload）

檔案上傳（File Upload） FileUpload，及檔案上傳漏洞，通常是由於對上傳檔案的型別、內容沒有進行嚴格過濾、檢查，使得可以的上傳webshell獲取伺服器許可權，因此檔案上傳漏洞帶來的危害常常是毀滅性的。

（軟體idea）api操作HDFS（外加hdfs的一下命令）

1、首先配置好hadoop的環境變數等內容，配置好maven然後編寫一個簡單的程式（他的目的是將本地的一個檔案進行上傳）

Ajax 上傳檔案（input file FormData）

FormData物件用以將資料編譯成鍵值對，以便用XMLHttpRequest來發送資料。其主要用於傳送表單資料，但亦可用於傳送帶鍵資料(keyed data)，而獨立於表單使用。

多執行緒與併發（一）——概述、執行緒狀態

iwehdio的部落格園：https://www.cnblogs.com/iwehdio/ 1、多執行緒概述多執行緒：多條執行路徑，主執行緒和子執行緒並行交替執行。

大資料實戰（八十一）：電商數倉（六十五）安全之Kerberos安全認證（一）概述與安裝

1 Kerberos概述 1.1 什麼是Kerberos Kerberos是一種計算機網路授權協議，用來在非安全網路中，對個人通訊以安全的手段進行身份認證。這個詞又指麻省理工學院為這個協議開發的一套計算機軟體。軟體設計上採用客戶端

大資料面試（hadoop）

hadoop實現二級排序? 在MapReduce中本身就會對我們key進行排序，所以我們要對value進行排序，主要思想為將key和部分value拼接成一個組合key（實現WritableComparable介面或者呼叫 setSortComparatorClass函式），

【計算機網路】學習筆記，第一篇：概述（謝希仁版）

本來沒想著更新計網，想直接整理一下 HTTP、TCP 那塊，不過想了一下從頭開始整理哇，順便鞏固一下學的知識

Ansible命令模組（yum模組 copy模組 file模組）

1.yum模組 1）語法幫助 [root@m01 ~]# ansible-doc yum EXAMPLES: - name: install the latest version of Apache

Git LFS（Large File Storage）

>>> Git Large File Storage (LFS)，是GitHub推出的基於Git的擴充套件，專門用來儲存大檔案。

Flink例項（三十）：狀態管理（一）概述

參考連結; https://www.cnblogs.com/qiu-hua/p/13432337.html https://www.cnblogs.com/shengyang17/p/12549199.html

Java學習筆記（1）——概述

>>> Java語言是SUN(Stanford University Network，斯坦福大學網路公司)公司1995年推出的一門高階程式語言，起初主要應用在小型消費電子產品上，後來隨著網際網路的興起，Java語言迅速崛起（Ja

Java併發深度總結：JMM（Java記憶體模型）概述

怕什麼真理無窮，進一寸有進一寸的歡喜。內容 1. 併發程式設計的兩個問題2. Java記憶體模型的抽象2.1 執行緒安全的三要素2.2 計算機記憶體模型2.2.1 快取一致性（可見性）2.2.2 處理器優化和指令重排（

HDFS（Hadoop Distributed File System ）概述

一、HDFS概述

二、HDFS特點

三、HDFS叢集組成：主從架構---一個主節點，多個從節點

1. NameNode（名稱節點 / 主節點）-----HDFS叢集的管理者

2. DataNode （資料節點 / 從節點）

3. SecondaryNameNode （第二名稱節點）

四、HDFS傳輸檔案方式

五、HDFS常用命令

六、如何實現啟動HDFS和yarn的時候不輸入密碼

相關推薦