（四）DFS檔案操作的原理及程式碼實現

阿新 • • 發佈：2018-12-18

1、檔案操作原理

1.1、下載過程

Client向namenode發起Open file 請求。目的是獲取指定檔案的輸入流
namenode收到請求之後，會檢查路徑的合法性，客戶端的操作許可權。如果檢測未通過，則直接報錯返回
Client也會向namenode發起Getblockloaction請求，獲取指定檔案的元資料資訊。如果上一步檢測通過，則namenode會將元資料資訊封裝到輸入流裡，返回給客戶端
客戶端根據元資料資訊，直接去對應的datanode讀取檔案塊，然後下載到本地（建立本地的輸出流，然後做流的對接）
關閉流

1.2、上傳過程

Client向namenode傳送Create file請求，目的是獲取HDFS檔案的輸出流

namenode收到請求之後，會檢查路徑的合法性，客戶端的操作許可權。如果檢測未通過，則直接報錯返回
如果通過檢測，namenode會將檔案的切塊資訊（檔案被切成幾塊，儲存位置，以及副本位置），然後把這些資訊封裝到輸出流裡，返回給客戶端。
clinet通過輸出流傳送檔案塊。會把檔案快打散成一個個的package，每個package最大為64KB，再傳輸一個個的package。這種機制叫做資料流管道機制，目的是充分利用每臺機器的頻寬，避免網路瓶頸和高延時的連線，最小化推送所有資料的延時
通過資料流管道機制，實現資料的傳送和副本的複製。datanode之間會進行package傳輸，儲存副本。每臺datanode伺服器收到資料之後，會向上遊反饋，直到最終反饋給Client，這一輪傳輸才算完成。

1.3、刪除檔案過程

客戶端向namenode發現刪除檔案指令，比如：hadoop fs -rm /park01/1.txt
namenode收到請求之後，會檢查路徑的合法性，客戶端的操作許可權。如果檢測未通過，則直接報錯返回
如果檢測通過，會將對應的檔案從元資料中刪除。（注意，此時這個檔案並沒有真正從叢集上被刪除）
每臺datanode會定期向namenode傳送心跳，會領取刪除的指令，找到對應的檔案塊，進行檔案塊的刪除。

2、編寫程式碼操作檔案

2.1、準備環境

eclipse版本： Version: Mars.2 Release (4.5.2)
eclipse操作hadoop外掛下載：連結：https://pan.baidu.com/s/1Hiw50aG2s-PTNEzD1LHcDw 提取碼：r3ac
注意，外掛的版本要和hadoop版本保持一致。並將外掛放在eclipse的plugins目錄下
將hadoop安裝包解壓到無中文路徑的目錄
啟動eclipse，Window | Preferences | Hadoop Map/Reduce,配置好hadoop的安裝目錄

新建hadoop工程 File | New | Others,搜尋Map/Reduce Project。建立後可以發現hadoop依賴的jar包都自動引用過來了。現在就可以開始寫程式碼操作hdfs了。

2.2、編寫程式碼

連線HDFS
下載
上傳
刪除
建立目錄
重新命名
查詢目錄下檔案
遞迴查詢目錄下檔案
獲取檔案塊資訊

package hadoop;

import java.io.ByteArrayInputStream;
import java.io.File;
import java.io.FileOutputStream;
import java.io.InputStream;
import java.io.OutputStream;
import java.net.URI;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.BlockLocation;
import org.apache.hadoop.fs.FileStatus;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.LocatedFileStatus;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.fs.RemoteIterator;
import org.apache.hadoop.io.IOUtils;
import org.junit.Test;

public class DfsOperation {
	//連線HDFS
	@Test
	public void testConnectNamenode() throws Exception {
		//建立hadoop環境引數物件，通過物件的set方法設定引數
		//通過物件配置的引數優先順序>配置檔案的配置
		//物件配置的生效範圍是當前工作執行緒。配置檔案的生效範圍是全域性
		Configuration conf = new Configuration();
		//連線HDFS檔案系統
		//Hadoop中有多種檔案系統（FileSystem有很多實現類），其中最重要的事分散式檔案系統
		FileSystem fs = FileSystem.get(new URI("hdfs://192.168.80.100:9000"), conf);

	}
	
	//下載
	@Test
	public void getFile() throws Exception {
		Configuration conf = new Configuration();
		FileSystem fs = FileSystem.get(new URI("hdfs://192.168.80.100:9000"), conf);
		
		//獲取HDFS上指定檔案的輸入流
		InputStream in = fs.open(new Path("/park/test.txt"));
		OutputStream out = new FileOutputStream(new File("test.txt"));
		//通過hadoop提供的資料流工具，完成資料流的傳輸
		IOUtils.copyBytes(in, out, conf);
		
		in.close();
		out.close();
		fs.close();
	}
	
	//上傳
	@Test
	public void putFile() throws Exception {
		Configuration conf = new Configuration();
		conf.set("dfs.replication", "1"); //設定副本數量
		FileSystem fs = FileSystem.get(new URI("hdfs://192.168.80.100:9000"), conf);
		
		ByteArrayInputStream in = new ByteArrayInputStream("testPutFile!".getBytes());
		OutputStream out = fs.create(new Path("/park/putFile.txt"));
		IOUtils.copyBytes(in, out, conf);
		
		in.close();
		out.close();
		fs.close();
	}
	
	//刪除
	@Test
	public void deleteFile() throws Exception {
		Configuration conf = new Configuration();
		FileSystem fs = FileSystem.get(new URI("hdfs://192.168.80.100:9000"), conf);
		
		//false只能刪除不為空的目錄；true不為空的目錄也可以刪除
		//也可以指定檔案去刪除
		fs.delete(new Path("/park"), true);
		
		fs.close();
	}
	
	//建立目錄  
	//fs.mkdirs(new Path("/park02"));
	
	//重新命名
	//fs.rename(new Path("/park"), new Path("/park01"));
	
	//查詢目錄下檔案
	@Test
	public void searchFile() throws Exception {
		Configuration conf = new Configuration();
		FileSystem fs = FileSystem.get(new URI("hdfs://192.168.80.100:9000"), conf);
		
		FileStatus[] ls = fs.listStatus(new Path("/result"));
		for(FileStatus status : ls) {
			System.out.println(status);
		}
		
		fs.close();
	}
	
	//遞迴查詢目錄下檔案
	@Test
	public void searchFileByR() throws Exception {
		Configuration conf = new Configuration();
		FileSystem fs = FileSystem.get(new URI("hdfs://192.168.80.100:9000"), conf);
		//true表示遞迴檢視
		RemoteIterator<LocatedFileStatus> rt = fs.listFiles(new Path("/result"), true);
		
		while(rt.hasNext()) {
			System.out.println(rt.next());
		}
		
		fs.close();
	}
	
	//獲取檔案塊資訊
	@Test
	public void getFileBlocksInfo() throws Exception {
		Configuration conf = new Configuration();
		FileSystem fs = FileSystem.get(new URI("hdfs://192.168.80.100:9000"), conf);
		//0 檢視塊的起始範圍  ；Integer.MAX_VALUE 檢視塊的結束範圍
		//通過這兩個引數控制檢視的塊的範圍
		BlockLocation[] data = fs.getFileBlockLocations(new Path("/park/putFile.txt"), 0, Integer.MAX_VALUE);
		for(BlockLocation bl : data) {
			System.out.println(bl);
			//輸出結果如下： 0,12,hadoop1
			//0 表示第一塊的起始位置； 12表示塊的實際大小；hadoop01表示儲存的datanode伺服器
		}
		
		fs.close();
	}
}

（四）DFS檔案操作的原理及程式碼實現

1、檔案操作原理 1.1、下載過程 Client向namenode發起Open file 請求。目的是獲取指定檔案的輸入流 namenode收到請求之後，會檢查路徑的合法性，客戶端的操作許可權。如果檢測未通過，則直接報錯返回 Client也會向namenode發起Get

最近最久未使用（LRU）頁面置換演算法原理及模擬實現

FIFO演算法的效能較差，它所依據的條件是各個頁面調入記憶體的時間，而頁面調入的先後並不能反映頁面的使用狀況。最近最久未使用（LRU）的頁面置換演算法是根據頁面調入記憶體後的使用情況做出決策的。由於無法預測各頁面將來的使用情況，只能利用“最近的過去”作為“最近的

機器學習筆記（三）——Logistic Regression 的原理以及程式碼實現

假設現在有一些資料點，我們用一條直線對這些點進行擬合（該線稱為最佳擬合直線），這個擬合過程就稱作迴歸。利用Logistic 迴歸進行分類的主要思想是：根據現有資料對分類邊界線建立迴歸公式，以此進行分類。這裡的“ 迴歸“一詞源於最佳擬合，表示要找到最佳擬合引數集

取樣方法（二）MCMC相關演算法介紹及程式碼實現

0.引子書接前文，在取樣方法（一）中我們講到了拒絕取樣、重要性取樣一系列的蒙特卡洛取樣方法，但這些方法在高維空間時都會遇到一些問題，因為很難找到非常合適的可採樣Q分佈，同時保證取樣效率以及精準度。本文將會介紹取樣方法中最重要的一族演算法，MCMC（Mar

Java多執行緒-----執行緒池的使用，原理以及舉例實現（三）（四）：使用樣例及如何配置執行緒池大小

三.使用示例　　前面我們討論了關於執行緒池的實現原理，這一節我們來看一下它的具體使用： public class Test { public static void main(String[] args) { ThreadPoolExe

2017第八屆藍橋杯（C/C++ ）B組 --C檔案操作解法及程式碼

標題：購物單（C檔案操作解法及程式碼）小明剛剛找到工作，老闆人很好，只是老闆夫人很愛購物。老闆忙的時候經常讓小明幫忙到商場代為購物。小明很厭煩，但又不好推辭。這不，XX大促銷又來了！老闆夫人開出了長長的購物單，都是有打折優惠的。小明也有個怪癖，不到萬不得已，從不刷卡，直接現金

【原創】源碼角度分析Android的消息機制系列（四）——MessageQueue的工作原理

Html5 學習系列（四）文件操作API

activex 出了 1.0 for AD con dsta buffer 們的原文:Html5 學習系列（四）文件操作API 引言在之前我們操作本地文件都是使用flash、silverlight或者第三方的activeX插件等技術，由於使用了這些技術後

Nodejs學習筆記（4）文件操作 fs 及 express 上傳

.cn 緩存單元填充 cep page imm idt mimetype 目錄參考資料 1. fs 模塊 1.1 讀取文件fs.readFile 1.2 寫入文件fs.writeFile 1.3 獲取文件信息fs.stat 1.4 刪除文件fs.unlink 1.5

對象（四）——對象標簽及序列化

object number des urn ons sealed def ole prope 對象標簽 1.class標簽(對象類型) 不能直接獲取class標簽，通過tostring間接獲取。 toString() 返回 "[object type]"，其中type是對象

數據結構（四）樹---集合的表示及查找（並查集）

點數據如何某個結點 efault .data nts 結構問題 amp 一：集合運算交，並，補，差，判斷一個元素是否屬於某一集合並查集將在判斷連通性和是否成環上面起到至關重要的作用二：並查集（一）集合並並集間有一元素相連（二）查某元素屬於什麽集

Vue 進階系列（三）之Render函式原理及實現

Vue進階系列彙總如下，歡迎閱讀，歡迎加高階前端進階群一起學習（文末）。 Vue 進階系列（一）之響應式原理及實現 Vue 進階系列（二）之外掛原理及實現 Render函式原理根據第一篇文章介紹的響應式原理，如下圖所示。在初始化階段，本質上發生在auto run函式中，然後通過r

Solr學習筆記（四）----使用solrJ操作

solrJ是solr官方類庫，實現原理就是使用http請求和響應，只是進行了一層封裝，不需要寫請求的url等引數。使用solrJ操作solr索引庫的一些方法： 1、向solr索引庫新增文件 @Test public void testAddDocument() throws Exc

OpenCV（一）——高斯卷積核原理及程式碼實現

貼出getGaussianKernel原始碼在smooth.cpp中提示：Gaussian核基於正態分佈函式設計 μ是均值，σ^2是方差正態函式（即一維Gaussian卷積核）如下二維卷積核通過對一維積分得到，並且μ = 0 根據如下原始碼可知

Maven學習筆記（四）--pom檔案

pom.xml檔案通過maven構建的專案在根目錄下都會有pom.xml這個檔案 <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-i

NFS筆記（一）NFS伺服器工作原理及詳細配置

一、NFS工作原理 1、什麼是NFS伺服器　　NFS就是Network File System的縮寫，它最大的功能就是可以通過網路，讓不同的機器、不同的作業系統可以共享彼此的檔案。　　NFS伺服器可以讓PC將網路中的NFS伺服器共享的目錄掛載到本地端的檔案系統中，而在本地端的系統中來

大資料教程（8.2）wordcount程式原理及程式碼實現/執行

上一篇部落格分享了mapreduce的程式設計思想，本節博主將帶小夥伴們瞭解wordcount程式的原理和程式碼實現/執行細節。通過本節可以對mapreduce程式有一個大概的認識，其實hadoop中的map、reduce程

MySQL優化（四）慢查詢的定位及優化

啟動 strong ptime pan bsp 回話 query plain ont 一、SQL語句優化的一般步驟：（1）通過 show status 命令了解各種 SQL 的執行效率；（2）定位執行效率較低的 SQL 語句（重點是 Select）；（3）通過 exp

WebAssembly 系列（四）：WebAssembly 工作原理

WebAssembly 是除了 JavaScript 以外，另一種可以在網頁中執行的程式語言。過去如果你想在瀏覽器中執行程式碼來對網頁中各種元素進行控制，只有 JavaScript 這一種選擇。所以當人們談論 WebAssembly 的時候，往往會拿 JavaScript 來進行比較。但

【機器學習】Apriori演算法——原理及程式碼實現（Python版）

Apriopri演算法 Apriori演算法在資料探勘中應用較為廣泛，常用來挖掘屬性與結果之間的相關程度。對於這種尋找資料內部關聯關係的做法，我們稱之為：關聯分析或者關聯規則學習。而Apriori演算法就是其中非常著名的演算法之一。關聯分析，主要是通過演算法在大規模資料集中尋找頻繁項集和關聯規則。

（四）DFS檔案操作的原理及程式碼實現

1、檔案操作原理

1.1、下載過程

1.2、上傳過程

1.3、刪除檔案過程

2、編寫程式碼操作檔案

2.1、準備環境

2.2、編寫程式碼

相關推薦