實時讀取目錄檔案到HDFS

阿新 • • 發佈：2020-09-09

1. 建立配置檔案flume-dir-hdfs.conf

建立一個檔案並開啟檔案

[ck@hadoop102 job]$ touch flume-dir-hdfs.conf
[ck@hadoop102 job]$ vim flume-dir-hdfs.conf

新增如下內容

a3.sources = r3
a3.sinks = k3
a3.channels = c3

#Describe/configure the source
a3.sources.r3.type = spooldir
a3.sources.r3.spoolDir = /opt/module/flume-1.9.0/upload
a3.sources.r3.fileSuffix = .COMPLETED
a3.sources.r3.fileHeader = true
a3.sources.r3.ignorePattern = ([^ ]*\.tmp)

#Describe the sink
a3.sinks.k3.type = hdfs
a3.sinks.k3.hdfs.path = hdfs://hadoop102:9000/flume-1.9.0/upload/%Y%m%d/%H
a3.sinks.k3.hdfs.filePrefix = upload-
a3.sinks.k3.hdfs.round = true
a3.sinks.k3.hdfs.roundValue = 1
a3.sinks.k3.hdfs.roundUnit = hour
a3.sinks.k3.hdfs.useLocalTimeStamp = true
a3.sinks.k3.hdfs.batchSize = 100
a3.sinks.k3.hdfs.fileType = DataStream
a3.sinks.k3.hdfs.rollInterval = 60
a3.sinks.k3.hdfs.rollSize = 134217700
a3.sinks.k3.hdfs.rollCount = 0
a3.sinks.k3.hdfs.minBlockReplicas = 1
 
#Use a channel which buffers events in memory
a3.channels.c3.type = memory
a3.channels.c3.capacity = 1000
a3.channels.c3.transactionCapacity = 100
 
#Bind the Source and sink to the channel
a3.sources.r3.channels = c3
a3.sinks.k3.channel = c3

2.啟動監控資料夾命令

[ck@hadoop102 flume-1.9.0]$ bin/flume-ng agent --conf conf/ --name a3 --conf-file job/flume-dir-hdfs.conf

說明：在使用spooling Directory Source時

1）不要在監控目錄中建立並持續修改檔案

2）上傳完成的檔案會以.COMPLETED結尾

3）被監控資料夾每500毫秒掃描一次檔案變動

3. 向upload資料夾中新增檔案

[ck@hadoop102 flume-1.9.0]$ mkdir upload
[ck@hadoop102 flume-1.9 
.0]$ cd upload/
[ck@hadoop102 upload]$ touch ck.log
[ck@hadoop102 upload]$ touch ck.txt
[ck@hadoop102 upload]$ touch ck.tmp

4. 檢視HDFS上的資料

5. 等待1s，再次查詢upload資料夾

案例來源於atguigu視訊

實時讀取目錄檔案到HDFS

1. 建立配置檔案flume-dir-hdfs.conf 建立一個檔案並開啟檔案 [ck@hadoop102 job]$ touch flume-dir-hdfs.conf[ck@hadoop102 job]$ vim flume-dir-hdfs.conf

php獲取目錄資料夾下的內容，可用於讀取目錄檔案

今天想加個功能，就是生成html地圖提供百度蜘蛛抓取，就要用到php獲取目錄資料夾下的內容調取。所以放上程式碼：

Spring Boot讀取resources目錄檔案方法詳解

這篇文章主要介紹了Spring Boot讀取resources目錄檔案方法詳解,文中通過示例程式碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下

javascript讀取本地檔案和目錄方法詳解

JavaScript是網頁製作中離不開的指令碼語言，依靠它，一個網頁的內容才生動活潑、富有朝氣。但也許你還沒有發現並應用它的一些更高階的功能吧？比如，對檔案和資料夾進行讀、寫和刪除，就象在VB、VC等高階語言中經常

Flume案例：目錄檔案到HDFS

實時讀取目錄檔案到HDFS案例 1）案例需求：使用flume監聽整個目錄的檔案 2）需求分析：

ASP.NET使用一般處理程式實現上傳文字檔案後實時讀取

之前我的做法是上傳文字檔案，儲存到伺服器硬碟，再去讀取伺服器上的文字檔案。

C#遞迴讀取GIS目錄檔案格式

記得學習程式設計時，遞迴可以說是一種典型的程式設計思維，一種常見的需求是遍歷目錄及子目錄中的檔案。後來工作時發現，其實微軟早就幫我們寫好了，不用自己老實去寫。

java 高併發讀取txt專案配置檔案_工具類：Java從專案可執行jar同級目錄讀取配置檔案工具類...

技術標籤：java 高併發讀取txt專案配置檔案有時候，我們在編寫java程式的時候，都是把一些可配置的新的寫到配置檔案裡，但是不能跟專案一起打包，因為配置檔案可能會需要經常修改，所以最好能在同級目錄。

檔案或目錄損壞且無法讀取怎麼辦,檔案或目錄損壞且無法讀取尋回方法

“檔案或目錄損壞且無法讀取”怎麼辦?呢？很多人都不知道該怎麼辦，其實我們只需要進行修復就可以了，具體該如何修復，下面小編來詳細的講解一下。

SpringBoot如何讀取配置檔案引數並全域性使用

這篇文章主要介紹了SpringBoot如何讀取配置檔案引數並全域性使用,文中通過示例程式碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下

java讀取txt檔案並輸出結果

這篇文章主要介紹了java讀取txt檔案並輸出結果,文中通過示例程式碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下

使用python的pandas庫讀取csv檔案儲存至mysql資料庫

第一：pandas.read_csv讀取本地csv檔案為資料框形式 data=pd.read_csv(\'G:\\data_operation\\python_book\\chapter5\\\\sales.csv\')

Python讀取csv檔案例項解析

這篇文章主要介紹了Python讀取csv檔案例項解析,文中通過示例程式碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下

Python讀取YAML檔案過程詳解

這篇文章主要介紹了Python讀取YAML檔案過程詳解,文中通過示例程式碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下

詳解Python Opencv和PIL讀取影象檔案的差別

前言之前在進行深度學習訓練的時候，偶然發現使用PIL讀取圖片訓練的效果要比使用python-opencv讀取出來訓練的效果稍好一些，也就是訓練更容易收斂。可能的原因是兩者讀取出來的資料轉化為pytorch中Tensor變數稍有不

Python3 解決讀取中文檔案txt編碼的問題

問題描述嘗試用Python寫一個Wordcloud的時候，出現了編碼問題。照著網上某些部落格的說法添添改改後，結果是變成了“UnicodeDecodeError: ‘utf-8\' codec can\'t decode byte…”這個錯誤。

簡單瞭解Python讀取大檔案程式碼例項

這篇文章主要介紹了簡單瞭解Python讀取大檔案程式碼例項,文中通過示例程式碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下

基於python讀取.mat檔案並取出資訊

這篇文章主要介紹了基於python讀取.mat檔案並取出資訊,文中通過示例程式碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下

利用python讀取YUV檔案轉RGB 8bit/10bit通用

注：本文所指的YUV均為YUV420中的I420格式（最常見的一種），其他格式不能用以下的程式碼。

python 的 openpyxl模組讀取 Excel檔案的方法

Python 的 openpyxl 模組可以讓我們能讀取和修改 Excel 檔案。首先讓我們先理解一些 Excel 基礎概念。