藍橋樓賽第24期-大資料-使用Flume採集資料題解

阿新 • • 發佈：2021-01-31

挑戰介紹

在 Hadoop 處理資料之前，首先需要採集資料並且上傳到叢集中。本次挑戰需要你使用 Flume 上傳資料，來監測指定目錄中檔案的變化，一旦該目錄有新檔案時，就會把該檔案自動地採集到 HDFS 上的指定目錄裡。

知識點

Flume 配置檔案編寫

挑戰準備

首先需要下載挑戰使用的原始資料 a.txt 到環境的 /home/shiyanlou 目錄中。

cd ~
wget https://labfile.oss.aliyuncs.com/courses/1379/a.txt

然後在 /home/shiyanlou 目錄下新建 data

目錄。

mkdir data

接下來在終端輸入 start-all.sh 啟動 Hadoop：

# 注意首次啟動需要輸入 yes
start-all.sh

啟動完成後，輸入 jps 檢視叢集是否成功啟動，確保存在如下的程序：
在這裡插入圖片描述

最後在 /home/shiyanlou 目錄下建立檔案 spool.conf。

cd ~
touch spool.conf

挑戰目標

請根據要求，參考下面的 Flume 配置檔案模板，補全其中 <code1>、<code2> 和 <code3> 三處的配置，然後寫入 sqool.conf。

Flume 模板檔案：

a1.sources = 
 r1
a1.sinks = k1
a1.channels = c1

a1.sources.r1.type = <code1>
a1.sources.r1.spoolDir = <code2>
a1.sources.r1.fileHeader = true

a1.sinks.k1.type = hdfs
a1.sinks.k1.channel = c1
a1.sinks.k1.hdfs.path = <code3>
a1.sinks.k1.hdfs.filePrefix = log-
a1.sinks.k1.hdfs.round = true
a1.sinks.k1.hdfs.roundValue = 
 10
a1.sinks.k1.hdfs.roundUnit = minute
a1.sinks.k1.hdfs.rollInterval = 3
#設定每多少個個位元組上傳一次
a1.sinks.k1.hdfs.rollSize = 0
#設定每多少條資料上傳一次
a1.sinks.k1.hdfs.rollCount = 3000
a1.sinks.k1.hdfs.batchSize = 1
a1.sinks.k1.hdfs.useLocalTimeStamp = true
#生成的檔案型別，預設是Sequencefile，可用DataStream，則為普通文字
a1.sinks.k1.hdfs.fileType = DataStream

a1.channels.c1.type = memory
a1.channels.c1.capacity = 1000
a1.channels.c1.transactionCapacity = 100

a1.sources.r1.channels = c1
a1.sinks.k1.channel = c1

挑戰要求

依照下面的要求編寫 spool.conf：

配置檔名稱需為 spool.conf 且必須儲存在 /home/shiyanlou 目錄下。
配置檔案需要檢測 /home/shiyanlou/data 目錄中檔案的變化，採集的資料需要儲存在 HDFS 上的 /flume 目錄中。
挑戰過程中務必保證 Hadoop 已經正確啟動。

挑戰驗證

編寫完成後使用如下命令啟動 Flume：

flume-ng agent -n a1 -f /home/shiyanlou/spool.conf -Dflume.root.logger=INFO,console

啟動 Flume 後新開啟一個終端，將 a.txt 拷貝到 /home/shiyanlou/data 目錄中。

cd ~
cp a.txt data

執行完成後可使用 hadoop fs -ls /flume 檢視 HDFS 上是否已經有采集的資料檔案。
成功採集到檔案如下圖所示：
在這裡插入圖片描述

來源：藍橋（實驗樓）
連結：https://www.lanqiao.cn/problems/86/learning/?is_contest=true

題解

簡單的簽到題，配置下路徑即可。

sqool.conf:

a1.sources = r1
a1.sinks = k1
a1.channels = c1

a1.sources.r1.type = spooldir
a1.sources.r1.spoolDir = /home/shiyanlou/data
a1.sources.r1.fileHeader = true

a1.sinks.k1.type = hdfs
a1.sinks.k1.channel = c1
a1.sinks.k1.hdfs.path = hdfs://127.0.0.1:9000/flume
a1.sinks.k1.hdfs.filePrefix = log-
a1.sinks.k1.hdfs.round = true
a1.sinks.k1.hdfs.roundValue = 10
a1.sinks.k1.hdfs.roundUnit = minute
a1.sinks.k1.hdfs.rollInterval = 3
#設定每多少個個位元組上傳一次
a1.sinks.k1.hdfs.rollSize = 0
#設定每多少條資料上傳一次
a1.sinks.k1.hdfs.rollCount = 3000
a1.sinks.k1.hdfs.batchSize = 1
a1.sinks.k1.hdfs.useLocalTimeStamp = true
#生成的檔案型別，預設是Sequencefile，可用DataStream，則為普通文字
a1.sinks.k1.hdfs.fileType = DataStream

a1.channels.c1.type = memory
a1.channels.c1.capacity = 1000
a1.channels.c1.transactionCapacity = 100

a1.sources.r1.channels = c1
a1.sinks.k1.channel = c1

藍橋樓賽第24期-大資料-使用Flume採集資料題解

技術標籤：hadoopflume題解hadoopflumehdfs 挑戰介紹在 Hadoop 處理資料之前，首先需要採集資料並且上傳到叢集中。本次挑戰需要你使用 Flume 上傳資料，來監測指定目錄中檔案的變化，一旦該目錄有新檔案時，就會

藍橋樓賽第1期-Linux-為新同事建立系統賬戶題解

技術標籤：題解Linuxlinux 題目描述實驗樓研發團隊有一臺獨立的測試伺服器，每位同事都在上面擁有一個賬號，用來日常開發測試。今天有一位叫樓賽的同事入職，需要你幫他建立新賬號。

藍橋雲課樓賽第22期 K 近鄰迴歸演算法實現參考答案（沒通過？？？）

技術標籤：機器學習藍橋雲課 import numpy as np # 已知樣本特徵 train_data = np.array([[1, 1], [2, 2], [3, 3], [4, 4], [5, 5],

第24期-畫圖形

1 問題描述按照要求使用turtle庫畫出圖形畫半徑為50的圓；畫長方形；畫邊長為100的紅色五角星。

2022-2023學年英語週報高二課標外研第24期答案彙總

進入檢視：2022-2023學年英語週報高二課標外研第24期答案彙總 Jackson began performing at the age of 5 with four of his five brothers as The Jackson Five. His first solo album, \"Off the Wall\" in 1979

2022-2023學年英語週報高三課標外研第24期答案彙總

進入檢視：2022-2023學年英語週報高三課標外研第24期答案彙總 Grebet is a 22-year-old design student in Ivory Coast. Everywhere he looks, he sees signs of Western influence - from the shopping malls li

大資料第24天-子查詢-楊大偉

1 cd /d D:\\MyWork\\MySQL\\mysql-5.7.28-winx64\\bin rem 目的是為了執行mysql.exe 2 mysql -h127.0.0.1 -P3306 -uroot -p123456 rem 作用是為了讓客戶端能夠正確的連線伺服器

大資料和雲端計算技術週報（第164期)

導語 “大資料” 三個字其實是個marketing語言，從技術角度看，包含範圍很廣，計算、儲存、網路都涉及，知識點廣、學習難度高。

【第17期Datawhale | 零基礎入門金融風控-貸款違約預測】Task02打卡：探索性資料分析【pandas_profiling生成資料報告異常，解決後單開一篇】

零基礎入門金融風控-貸款違約預測 Task02 探索性資料分析 Task02目的: 熟悉整體資料集的基本情況,異常值,缺失值等, 判斷資料集是否可以進行接下來的機器學習或者深度學習建模.

科技愛好者週刊（第 128 期）：這個社會是否正在變成“賽博朋克”？

這裡記錄每週值得分享的科技內容，週五釋出。本雜誌開源（GitHub: ruanyf/weekly），歡迎提交 issue，投稿或推薦科技內容。

2019年第10屆藍橋杯 Java B組省賽第三題

03-試題 C: 數列求值本題總分：10 分【問題描述】給定數列 1, 1, 1, 3, 5, 9, 17, …，從第 4 項開始，每項都是前 3 項的和。求第 20190324 項的最後 4 位數字。

Leetcode第 217 場周賽(思維量比較大)

Leetcode第 217 場周賽比賽連結：點這裡做完前兩題我就知道今天的競賽我已經結束了

2020年第11屆藍橋杯 Java B組省賽第6題

六、試題F: 分類計數【問題描述】輸入一個字串，請輸出這個字串包含多少個大寫字母，多少個小寫字母，多少個數字。

Java自學第2期——註釋、資料型別、運算子、方法

2.1、註釋註釋用於說明某段程式碼的作用，某個類的用途，某個方法的功能，引數和返回值資料型別的意義等等；

Java自學第6期——Collection、Map、迭代器、泛型、可變引數、集合工具類、集合資料結構、Debug

集合：集合是java中提供的一種容器，可以用來儲存多個數據。集合和陣列既然都是容器，它們有啥區別呢？

支軍隊正在進行閱兵前的訓，訓陳前佇列排隊是一個難題。該佇列是一個nn的方陣，排隊要求是後一排的最低的不比前一排最高的低，同時要求偶數行從小到大排列，奇數行從大到小排列（行數從第0行開始，O為偶數）。輸λn及ηn個身高資料〈身高資料為整型），按要求處理後輸岀 n佇列身高資料（每個身高資料佔4個字元寬度）。

支軍隊正在進行閱兵前的訓，訓陳前佇列排隊是一個難題。該佇列是一個n*n的方陣，排隊要求是後一排的最低的不比前一排最高的低，同時要求偶數行從小到大排列，奇數行從大到小排列（行數從第0行開始，O為偶數）。輸λn

藍橋樓賽第24期-大資料-使用Flume採集資料題解

挑戰介紹

知識點

挑戰準備

挑戰目標

挑戰要求

挑戰驗證

題解

藍橋樓賽第24期-大資料-使用Flume採集資料題解

藍橋樓賽第1期-Linux-為新同事建立系統賬戶題解

藍橋雲課樓賽第22期 K 近鄰迴歸演算法實現參考答案（沒通過？？？）

第24期-畫圖形

2022-2023學年英語週報高二課標外研第24期答案彙總

2022-2023學年英語週報高三課標外研第24期答案彙總

大資料第24天-子查詢-楊大偉

大資料和雲端計算技術週報（第164期)

【第17期Datawhale | 零基礎入門金融風控-貸款違約預測】Task02打卡：探索性資料分析【pandas_profiling生成資料報告異常，解決後單開一篇】

科技愛好者週刊（第 128 期）：這個社會是否正在變成“賽博朋克”？

2019年第10屆藍橋杯 Java B組省賽第三題

Leetcode第 217 場周賽(思維量比較大)

2020年第11屆藍橋杯 Java B組省賽第6題

Java自學第2期——註釋、資料型別、運算子、方法

Java自學第6期——Collection、Map、迭代器、泛型、可變引數、集合工具類、集合資料結構、Debug

第十二屆藍橋杯模擬賽第二期

藍橋杯2017年省賽[第八屆]-JavaB組賽題解析（下）

handsontable vue 資料載入_【第七期】使用 vueasynmanager 管理 Vue 應用中的非同步呼叫...

第2章大資料處理架構Hadoop （一）

藍橋樓賽第24期-大資料-使用Flume採集資料 題解

挑戰介紹

知識點

挑戰準備

挑戰目標

挑戰要求

挑戰驗證

題解

相關推薦

藍橋樓賽第24期-大資料-使用Flume採集資料題解