Flume+HDFS+Kafka+Hive例項搭建

阿新 • • 發佈：2018-12-30

摘要：本文要實現的是一個使用Flume來處理Kafka的資料，並將其儲存到HDFS中去，然後通過Hive外部表關聯查詢出來儲存的資料。

所以在建立一個maven工程，整個工程最終的目錄如下：

下面開始一步一步講解

1、定義自己的source

之所以不用源生的，是因為要對得到的訊息要一定的處理後再儲存到hdfs中去，這裡主要就是將每一條訊息解析並組裝成以“|”做分隔的一條記錄

在這個類中定義Start方法來初始化連線kafka:

在這個類中定義處理消費的方法：

其實就是將訊息處理成一條以“|”符號隔開的一條資料並放入到channel中：

中間還有一部分處理：

筆者都一而過了，這是放到event,下一步就是放在channel中了。

上面的process方法會呼叫到這：

其實就是將訊息解析，並組裝成一條以“|”隔開的資料

2、配置檔案

接下來就是配置source/channel/sink了。

配置檔案部分內容：

注意，這裡的channle使用的type是SPILLABLEMEMORY,表示source來的event都會先儲存到記憶體中去，記憶體不夠了再儲存到硬碟中去。各項引數此處不再做解釋

3、啟動指令碼：

如果flume程式所在的叢集不在haddop叢集中，需要將haddop叢集的/hadoop/native資料夾複製到此flume執行的機器，並且將hdfs-site.xml也一起復制過來。如果還操作了hbse/hive,那麼hbse-site.xml.hive-site.xml也要複製過來。

然後編寫啟動指令碼：

啟動執行：

停止執行：

事先要將checkpoint目錄建立起來：

4、打包

最後打包成一個tar包，並將配置檔案是jar包分離

打包後目錄：

所有的jar包都在lib目錄，而不是打成一個大jar包

在上面的啟動指令碼中就可以指明依賴的jar包：

啟動時新增這個引數：

5、執行

flume安裝很簡單，將flume安裝包解壓後就可以，同時將我們的應用從上面的tar包上傳到此臺機器，並解壓

並進入bdp-flume建立如下幾個目錄：

channel_date:channel的硬碟儲存目錄

log:列印的日誌儲存目錄

var:存放當前flume應用的pid,主要是啟動和停止會用到

啟動：

這是log目錄下列印的部分日誌：

看一下hdfs是否有資料：

注意，這裡是直接將檔案存放到hdfs的這個路徑，並每天有一個檔案價（為後面和hive表分割槽關聯方便）

儲存的檔案：.tmp結尾的表示當前正在寫入的，還沒有滾動

因為是儲存成.snappy檔案，所以直接查詢會亂碼。如果是儲存成textfile的話，就不會。但是snappy有壓縮，textfile沒，建議使用snappy。

6、建立Hive外部表

CREATE  TABLE IF NOT EXISTS ods_uba.kafka_appchnl_source_log 
(
   source_log           string,
   muid                 string, -- 'parse ck',
   dev_no               string, -- 'uu',
   user_id              string, -- 'ur',
   mbl_nbr              string, -- 'ud',
   chnl_code            string, -- 'ch',
   opt_type             string, -- 'ac',  
   req_no               string, -- 'rn',
   vt_time              string, -- 'tm',
   st_time              string -- 'st',
) 
PARTITIONED BY (opdt string) 
row format delimited
fields terminated by '^' lines terminated by '\n'
stored as textfile
LOCATION '/hive/warehouse/ods_uba.db/kafka_appchnl_source_log';

注意：這裡Location指的是hdfs檔案存放的目錄，可以不用完全是hive表預設的儲存路徑一樣。

新增分割槽資料：

alter table kafka_appchnl_source_log add if not exists partition(opdt='2017-01-06')

查詢：

可以用presto和dbveare使用來查詢，也可以使用hive命令查詢

這是查詢出來的部分欄位：

更多技術請關注筆者微信技術公眾號"單例模式"

Flume+HDFS+Kafka+Hive例項搭建

摘要：本文要實現的是一個使用Flume來處理Kafka的資料，並將其儲存到HDFS中去，然後通過Hive外部表關聯查詢出來儲存的資料。所以在建立一個maven工程，整個工程最終的目錄如下：下面開始一步一步講解 1、定義自己的source

flume-ng+Kafka+Storm+HDFS 實時系統搭建

今天搭建了一下storm流處理系統,整個搭建的流程都是參考以下地址:http://www.cnblogs.com/web-v/articles/6510090.html 文章中並沒有給出flume同時寫入kafka和hdfs時的配置檔案。以下是我的flume配置檔案,有一些

【Twitter Storm系列】flume-ng+Kafka+Storm+HDFS 實時系統搭建

技術交流群：59701880 深圳廣州hadoop好友會微信公眾號：後續部落格的文件都會轉到微信公眾號中。一直以來都想接觸Storm實時計算這塊的東西，最近在群裡看到上海一哥們羅寶寫的Flume+Kafka+Storm的實時日誌流系統的搭建文件，自己也跟著整了一遍，之前羅寶的

flume-ng+Kafka+Storm+HDFS+jdbc 實時系統搭建的完美整合

一直以來都想接觸Storm實時計算這塊的東西，最近在群裡看到上海一哥們羅寶寫的Flume+Kafka+Storm的實時日誌流系統的搭建文件，自己也跟著整了一遍，之前羅寶的文章中有一些要注意點沒提到的，以後一些寫錯的點，在這邊我會做修正；內容應該說絕大部分引用羅寶的文章的，這裡要謝謝羅寶兄弟，還有寫這篇文章@

使用Flume消費Kafka資料到HDFS

1.概述對於資料的轉發，Kafka是一個不錯的選擇。Kafka能夠裝載資料到訊息佇列，然後等待其他業務場景去消費這些資料，Kafka的應用介面API非常的豐富，支援各種儲存介質，例如HDFS、HBase等。如果不想使用Kafka API編寫程式碼去消費Kafka Topic，也是有元件可以去整合消費的。下

flume將kafka中topic資料匯入hive中

一、首先更加資料的表結構在hive中進行表的建立。 create table AREA1(unid string,area_punid string,area_no string,area_name s

資料離線分析：kafka+flume+hdfs

資料採集到kafka中之後，既可以對資料進行離線分析，又可以對資料進行實時分析，有些資料適合進行離線分析，比如使用者畫像。離線分析，需要將資料從kafka中存到hdfs中，這裡使用flume，將資料從kafka中匯入到hdfs中。flume的啟動

Flume將 kafka 中的資料轉存到 HDFS 中

flume1.8 kafka Channel + HDFS sink(without sources) 將 kafka 中的資料轉存到 HDFS 中, 用作離線計算, flume 已經幫我們實現了, 新增配置檔案, 直接啟動 flume-ng 即可. The Kafka channel can be

mac下單機版 kafka + spark + python搭建與例項

kafka＋zookeeper 不提供spark安裝，這裡從kafka安裝開始首先下載kafka和zookeeper brew install zookeeper 等它安裝完畢，先進入zookeeper資料夾，往往在/usr/local/Cella

flume-ng+Kafka+Storm+HDFS 實時系統組合

大資料我們都知道hadoop，但並不都是hadoop.我們該如何構建大資料庫專案。對於離線處理，hadoop還是比較適合的，但是對於實時性比較強的，資料量比較大的，我們可以採用Storm，那麼Storm和什麼技術搭配，才能夠做一個適合自己的專案。下面給大家可以參考。可

flume實現kafka到hdfs實時資料採集

方案:兩臺採集機器dc007.dx.momo.com,dc008.dx.momo.com.有兩個寫hdfs的sink,分別部署到兩臺機器,然後兩個負載均衡的agent,也是分佈部屬到兩臺機器上,每一個agent都是寫到兩個hdfs sink的source端. 配置: **

flume的kafka到hdfs的配置

1.htrace-core-3.0.jar2.commons-configuration-1.6.jar3.hadoop-auth-2.6.0.jar4.hadoop-common-2.6.0.jar5.hadoop-hdfs-2.6.0.jar6.hadoop-mapred

flume整合kafka和hdfs

flume版本：1.7.0 kafka版本：2.11-0.10.1.0 hadoop 版本：2.6.0 最近在玩這個flume和kafka這兩個東西，網上有很多這方面的簡介，我就不多說了，我的理解為啥要整合這兩個在一起的，我的理解就是，flume作為訊息的持久化，然後就是k

nginx+flume+hdfs搭建實時日誌收集系統

1、配置nginx.conf，新增以下配置 http { #配置日誌格式 log_format lf '$remote_addr^A$msec^A$http_host^A$reques

Flume從Kafka讀取資料，並寫入到Hdfs上

需求：kafka有五個主題 topic topic-app-startuptopic topic-app-errortopic topic-app-eventtopic topic-app-usagetopic topic-app-pageflume讀取Kafka 5個主題

大數據數據倉庫-基於大數據體系構建數據倉庫（Hive，Flume，Kafka，Azkaban，Oozie，SparkSQL）

oop 消息系統 ase 關註設置養老如何並不是聯網背景接著上個文章數據倉庫簡述，想寫一篇數據倉庫常用模型的文章，但是自己對數據倉庫模型的理解程度和建設架構並沒有下面這個技術專家理解的深刻，並且自己去組織語言，可能會有不準確的地方，怕影響大家對數據倉庫建模的

Kafka集群搭建

pic 配置環境變量處理 jdk1.8 將他版本線程 partition connect 本文安裝環境　　操作系統：CentOS6.7 64位　　JDK版本：jdk1.8.0_131（要求JDK1.8以上）　　ZooKeeper版本：3.4.8 　　Ka

Kafka 環境部署搭建

kafka 環境部署搭建一、基本概念介紹Kafka是一個分布式的、可分區的、可復制的消息系統。它提供了普通消息系統的功能，但具有自己獨特的設計。這個獨特的設計是什麽樣的呢？首先讓我們看幾個基本的消息系統術語：Kafka將消息以topic為單位進行歸納。將向Kafka topic發布消息的程序成為produce

Spark環境搭建（四）-----------數據倉庫Hive環境搭建

apr 程序版本擴展 arch 表名數據集 .tar.gz 自定義 Hive產生背景 1）MapReduce的編程不便，需通過Java語言等編寫程序 2） HDFS上的文缺失Schema(在數據庫中的表名列名等)，方便開發者通過SQL的方式處理結構化的數據，而不需

hive環境搭建

客戶環境 logs java-5 var apache 9.1 ddp body 機器規劃：主機 ip 進程 master1 10.112.29.9 hive server master2 10.112.29.10 hive client mys

Flume+HDFS+Kafka+Hive例項搭建

相關推薦