hadoop讀取檔案流程分析

阿新 • • 發佈：2019-02-15

在讀取HDFS上的檔案時，Client、NameNode以及DataNode都會相互關聯。按照一定的順序來實現讀取這一過程，讀取過程如下圖所示：

　　通過上圖，讀取HDFS上的檔案的流程可以清晰的知道，Client通過例項開啟檔案，找到HDFS叢集的具體資訊（我們需要操作的是 ClusterA，還是ClusterB，需要讓Client端知道），這裡會建立一個輸入流，這個輸入流是連線DataNode的橋樑，相關資料的讀取 Client都是使用這個輸入流來完成的，而在輸入流建立時，其建構函式中會通過一個方法來獲取NameNode中DataNode的ID和Block的位置資訊。Client在拿到DataNode的ID和Block位置資訊後，通過輸入流去讀取資料，讀取規則按照“就近原則”，即：和最近的 DataNode建立聯絡，Client反覆呼叫read方法，並將讀取的資料返回到Client端，在達到Block的末端時，輸入流會關閉和該 DataNode的連線，通過向NameNode獲取下一個DataNode的ID和Block的位置資訊（若物件中為快取Block的位置資訊，會觸發此步驟，否則略過）。然後拿到DataNode的ID和Block的位置資訊後，在此連線最佳的DataNode，通過此DataNode的讀資料介面，來獲取資料。

　　另外，每次通過向NameNode回去Block資訊並非一次性獲取所有的Block資訊，需得多次通過輸入流向NameNode請求，來獲取下一組Block得位置資訊。然而這一過程對於Client端來說是透明的，它並不關係是一次獲取還是多次獲取Block的位置資訊，Client端在完成資料的讀取任務後，會通過輸入流的close()方法來關閉輸入流。

　　在讀取的過程當中，有可能發生異常，如：節點掉電、網路異常等。出現這種情況，Client會嘗試讀取下一個Block的位置，同時，會標記該異常的DataNode節點，放棄對該異常節點的讀取。另外，在讀取資料的時候會校驗資料的完整性，若出現校驗錯誤，說明該資料的Block已損壞，已損壞的資訊會上報給NameNode，同時，會從其他的DataNode節點讀取相應的副本內容來完成資料的讀取。Client端直接聯絡 NameNode，由NameNode分配DataNode的讀取ID和Block資訊位置，NameNode不提供資料，它只處理Block的定位請求。這樣，防止由於Client的併發資料量的迅速增加，導致NameNode成為系統“瓶頸”（磁碟IO問題）。

hadoop讀取檔案流程分析

在讀取HDFS上的檔案時，Client、NameNode以及DataNode都會相互關聯。按照一定的順序來實現讀取這一過程，讀取過程如下圖所示：　　通過上圖，讀取HDFS上的檔案的流程可以清晰的知道，Client通過例項開啟檔案，找到HDFS叢集的具體資訊（

hadoop寫檔案流程分析

1.主要概念 1.1 NameNode（NN）： HDFS系統核心元件，負責分散式檔案系統的名字空間管理、INode表的檔案對映管理。如果不開啟備份/故障恢復/Federation模式，一般的HDFS系統就只有1個NameNode，當然這樣是存在單點故障隱患

hadoop讀取檔案java.io.EOFException解決

今天除錯hadoop讀取檔案系統的時候遇到了一個java.io.EOFException異常原始程式碼 String path="hdfs://master:9000/user/hadoop-0.20.2/tmp/7-0-initial-docid"; FileSy

Linux核心讀取檔案流程原始碼及阻塞點超詳解

以linux核心3.13版本為例，首先核心通過系統呼叫read()，執行sys_read()函式，在檔案linux/fs/read_write.c中： //linux/fs/read_write.c SYSCALL_DEFINE3(read, unsigne

live555從RTSP伺服器讀取資料到使用接收到的資料流程分析

本文在linux環境下編譯live555工程，並用cgdb除錯工具對live555工程中的testProgs目錄下的openRTSP的執行過程進行了跟蹤分析，直到將從socket端讀取視訊資料並儲存為對應的視訊和音訊資料為止。進入testProgs目錄，執行./openRTSP rtsp://

Python資料分析之讀取檔案 python 程式語言

Python的資料分析，大部分的教程都是想講numpy，再講Dataframe，再講讀取檔案。但我看書的時候，前面二章看的實在頭暈，所以，我們還是通過讀取檔案來開始我們的Python資料分析吧。讀取CSV 讀取csv通過read_csv讀取python程式語言學習QQ群 5152672

讀取和反序列化Hadoop序列檔案

問題描述 Hadoop在執行MR時，經常要將一些中間結果存到本地，為了節省儲存空間，Hadoop採用序列化機制（Hadoop的序列化機制和Java的有所不同）將資料儲存為二進位制檔案，此時若需要觀察中間結果檔案進行除錯，就需要將二進位制檔案進行反序列化為可讀的字元。此篇文章只展示反序列化的程式碼流程，不分析

Sessin、redis、檔案快取(catch)、DB讀取速度比較分析

step1:往資料庫裡新增1000條測試資料執行這個方法的結果: step2:將資料寫入redis快取，檔案快取，和session 經過測試發現四種方式，讀取的快到慢的順序為: Session最快，Db最慢，檔案快取有時比redis快，有時比redis慢 Sessio

Go語言三種方式讀取檔案效率對比及原因分析

最近有遇到需要用go讀取大檔案的情況，順路研究了一下go幾種讀取檔案方式的效率。 go幾種常見的檔案io方式使用os包內的open和read。 fi, err := os.Open(path) // 開啟檔案 buf := make([]byte, 102

Hadoop api訪問 01讀取檔案練習

//編譯工具 eclipse import java.net.MalformedURLException; import java.net.URL; public class FangWenDemo { static{

hadoop2.7.3原始碼解析之hdfs刪除檔案全流程分析

客戶端刪除檔案先來一段簡單的程式碼,用java的api刪除hdfs的檔案 Configuration conf = new Configuration(); FileSystem fs = FileSystem.get(co

hadoop原始碼解析之hdfs寫資料全流程分析---客戶端處理

DFSOutputStream介紹 DFSOutputStream概況介紹這一節我們介紹hdfs寫資料過程中，客戶端的處理部分。客戶端的處理主要是用到了DFSOutputStream物件，從名字我們可以看出，這個是對dfs檔案系統輸出流的一個

hadoop 1.0.4 fsimage 檔案格式分析

2013-01-08 周海漢 2013.1.8 http://abloz.com/2013/01/08/hadoop-1-0-4-fsimage-file-format.html fsimage檔案存放在NameNode中，

C/C++快速讀寫磁碟資料的方法-塊讀取/非同步/優化分析演算法/記憶體檔案對映的原理和使用

快速讀寫磁碟資料的方法： 1.塊讀取：一下子將資料讀取到記憶體的（無論是文字還是二進位制)，而不是一行行的讀取。 2.非同步的IO，建立多執行緒，或者使用重疊IO,IO複用，非同步的事件回撥通知機制（可以用事件物件，訊號驅動來實現)。 3.優化分析檔案的演算法和儘量延後分析，分析演算法裡

hadoop之解析HDFS的寫檔案流程

檔案是如何寫入HDFS的？下面我們來先看看下面的“寫”流程圖：假如我們有一個檔案test.txt，想要把它放到Hadoop上，執行如下命令：引用 # hadoop fs -put /usr/bigdata/datas

Hadoop 案例7-----日誌分析：分析非結構化檔案

1、需求：根據tomcat日誌計算url訪問了情況，具體的url如下，要求：區別統計GET和POST URL訪問量結果為：訪問方式、URL、訪問量 127.0.0.1 - - [03/Jul/2014:23:36:38 +0800]

hadoop平臺讀取檔案報錯

背景：生產環境有個指令碼執行讀取st層表資料時出現IO錯誤，查看錶目錄下的檔案，都是壓縮後的檔案。詳細資訊如下： Task with the most failures(4): ----- Task ID: task_201408301703_172845_m_00350

Hadoop自定義讀取檔案

今天從網上看到點資料，很適合用MapReduce來分析一下。一條記錄的格式如下： [**] [1:538:15] NETBIOS SMB IPC$ unicode share access [**][Classification: Generic Protocol Comm

C#BMP檔案格式分析並讀取

原文地址：https://blog.csdn.net/guanchanghui/article/details/1172092 主要是方便自己用，複製了一下，建議大家看原文簡介 BMP(Bitmap-File)圖形檔案是Windows採用的圖形檔案格式，在Windows環

hdfs 檔案提交與mr作業提交流程分析

看了不少東西，想把他們總結出來，若有錯誤還望不吝賜教在hdfs架構中可以吧Client認為是送貨人，nn是倉庫管理員，dn是一個個倉庫。當客戶端要送貨（檔案）的時候，進行如下步驟 1.送貨員通過rpc通訊告知倉庫管理員（nn）說我這裡有貨物，請告訴我放在哪裡啊 2.倉