flume採集資料到hdfs上產生的問題及其優化方法

阿新 • • 發佈：2021-10-08

　　　flume指定HDFS型別的Sink時，採集資料至HDFS指定目錄，會產生大量小檔案。
解決方案：
去掉round時間系列引數，並將rollSize和rollCount置0，
表示不根據臨時檔案大小和event數量來滾動檔案（滾動檔案即指將HDFS上生成的以.tmp結尾的臨時檔案轉換為實際儲存檔案）。
當然，也可以調大rollSize引數（如調至100000000,表示100MB滾動檔案，單位是bytes）;

#Describe the sink 新增：

a1.sinks.k1.hdfs.rollSize=0
a1.sinks.k1.hdfs.rollCount=0

rollSize
預設值：1024，當臨時檔案達到該大小（單位：bytes）時，滾動成目標檔案。如果設定成0，則表示不根據臨時檔案大小來滾動檔案。

rollCount
預設值：10，當events資料達到該數量時候，將臨時檔案滾動成目標檔案，如果設定成0，則表示不根據events資料來滾動檔案。

解決Flume將kafka中的資料傳到HDFS中中文有亂碼問題
翻看Flume文件，發現，HdfsEventSink中，hdfs.fileType預設為SequenceFile，將其改為DataStream就可以按照採集的檔案原樣輸入到hdfs，加一行

a1.sinks.k1.hdfs.fileType=DataStream

a1.sinks.k1.hdfs.fileType=DataStream

原文連結：https://blog.csdn.net/Mirror_w/article/details/93773713

紙上得來終覺淺，絕知此事要躬行。

flume採集資料到hdfs上產生的問題及其優化方法

flume採集資料到hdfs上產生的問題及其優化方法

藍橋樓賽第24期-大資料-使用Flume採集資料題解

網站流量日誌分析（資料採集之 Flume 採集）

Spark專案實戰從0到1之（1）Spark讀取和儲存HDFS上的資料

sqoop——將mysql資料庫的資料表匯入到hdfs上

flume讀取kafka訊息並存儲到HDFS上出現異常Attempt to heart beat failed since member id is not valid, reset it and t

檔案採集到mysql_上傳檔案實現資料採集以及批量匯入資料庫例項

位元組跳動學習筆記：百萬資料分頁查詢的方法及其優化方式

flume的一個例子:從指定網路埠採集資料輸出到控制檯

Flink 環境的搭建、獨立叢集、Flink on Yarn、訪問Flink web介面、Flink提交任務的三種方式、Flink讀取HDFS上的資料

flume採集檔案到HDFS

位元組跳動在Spark SQL上的核心優化實踐 | 位元組跳動技術沙龍

經典演演算法（1）：氣泡排序及其優化

將ApiBoot Logging採集的日誌上報到Admin

詳解Mysql索引原理及其優化

MySQL查詢語句過程和EXPLAIN語句基本概念及其優化

mysql千萬級資料分頁查詢效能優化

Pytorch 神經網路—自定義資料集上實現教程

pyhton中pycache資料夾的產生與作用詳解

使用 PyTorch 實現 MLP 並在 MNIST 資料集上驗證方式

flume採集資料到hdfs上產生的問題及其優化方法

相關推薦