實現將Kafka Topic中的資料傳入HBase

阿新 • • 發佈：2021-01-08

技術標籤：菜鳥也學大資料 kafka HBase 大資料 kafka hbase

準備前的操作

主機對映：點選這裡

建立Maven專案

在Pom.xml中新增依賴

	<!- 根據自己使用的kafka、HBase版本進行修改->
    <dependency>
      <groupId>org.apache.kafka</groupId>
      <artifactId>kafka_2.11</artifactId>
      <version>2.0.0</version>
    </dependency 
>
    <dependency>
    <groupId>org.apache.kafka</groupId>
    <artifactId>kafka-streams</artifactId>
    <version>2.0.0</version>
  </dependency>
    <dependency>
      <groupId>org.apache.hbase</groupId>
      <artifactId>hbase-client</ 
artifactId>
      <version>1.2.0</version>
    </dependency>
    <dependency>
      <groupId>org.apache.hbase</groupId>
      <artifactId>hbase-server</artifactId>
      <version>1.2.0</version>
    </dependency>
  </dependencies>

實現程式碼(JAVA)

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.hbase.HBaseConfiguration;
import org.apache.hadoop.hbase.TableName;
import org.apache.hadoop.hbase.client.Connection;
import org.apache.hadoop.hbase.client.ConnectionFactory;
import org.apache.hadoop.hbase.client.Put;
import org.apache.hadoop.hbase.client.Table;
import org.apache.hadoop.hbase.util.Bytes;
import org.apache.kafka.clients.consumer.ConsumerConfig;
import org.apache.kafka.clients.consumer.ConsumerRecord;
import org.apache.kafka.clients.consumer.ConsumerRecords;
import org.apache.kafka.clients.consumer.KafkaConsumer;
import org.apache.kafka.common.serialization.StringDeserializer;

import java.io.IOException;
import java.time.Duration;
import java.util.ArrayList;
import java.util.Collections;
import java.util.List;
import java.util.Properties;

/**
 * @ Author: Zhangyu
 * @ Date: 2021/1/6
 * @ Description:將kafka event_attendees中的資料消費到HBase的events_db:event_attendee中
 */
public class EventAttendTohb {
    public static void main(String[] args) {
        //配置Kafka連線資訊
        Properties prop=new Properties();
        prop.put(ConsumerConfig.BOOTSTRAP_SERVERS_CONFIG,"192.168.**.**:9092");
        prop.put(ConsumerConfig.KEY_DESERIALIZER_CLASS_CONFIG, StringDeserializer.class);
        prop.put(ConsumerConfig.VALUE_DESERIALIZER_CLASS_CONFIG,StringDeserializer.class);
        prop.put(ConsumerConfig.SESSION_TIMEOUT_MS_CONFIG,30000);
        prop.put(ConsumerConfig.ENABLE_AUTO_COMMIT_CONFIG,false);//不允許自動提交
        prop.put(ConsumerConfig.AUTO_COMMIT_INTERVAL_MS_CONFIG,1000);
        prop.put(ConsumerConfig.GROUP_ID_CONFIG,"eventAttend");
        prop.put(ConsumerConfig.AUTO_OFFSET_RESET_CONFIG,"earliest");

        //建立kafka消費者
        KafkaConsumer<String, String> consumer = new KafkaConsumer<>(prop);
        
        //設定消費的Topic
        consumer.subscribe(Collections.singleton("event_attendees_row"));//設定讀取的topic

        //配置HBase連線資訊
        Configuration conf = HBaseConfiguration.create();
        conf.set("hbase.rootdir","hdfs://192.168.95.99:9000/hbase");
        conf.set("hbase.zookeeper.quorum","192.168.95.99");
        conf.set("hbase.zookeeper.property.clientPort","2181");

        try {
            //建立連線HBase例項
            Connection connection = ConnectionFactory.createConnection(conf);
            
            //將讀取的資料設定放入指定表中
            Table eventAttendTable = connection.getTable(TableName.valueOf("events_db:event_attendee"));
            
            //開始讀取Topic中的資料
            while (true) {
            
                //每100毫秒拉取一次資料
                ConsumerRecords<String, String> poll = consumer.poll(Duration.ofMillis(100));
                
                //建立List，儲存Put型別的資料，需要方在while裡定義，否則集合會無限增大，最終會導致OOM
                List<Put> datas=new ArrayList<>();
                
                //將拉取的資料轉換成Put型別並add到集合中
                for (ConsumerRecord<String, String> record : poll) {
                
                    //輸出拉取的資料，防止在拉取資料的時候失敗
                    System.out.println(record.value());
                    
                    //對資料按","號分割
                    String[] split = record.value().split(",");
                    
                    //將拆分的資料放入Put物件中
                    Put put = new Put(Bytes.toBytes((split[0]+split[1]+split[2]).hashCode()));
                    
                    //為Put物件中的資料指定列簇與列名
                    put.addColumn("euat".getBytes(),"eventid".getBytes(),split[0].getBytes());
                    put.addColumn("euat".getBytes(),"userid".getBytes(),split[1].getBytes());
                    put.addColumn("euat".getBytes(),"state".getBytes(),split[2].getBytes());

					//將處理後的Put物件新增到集合中
                    datas.add(put);
                }
                
                //將一次拉取的資料put到HBase中
                eventAttendTable.put(datas);
            }
        } catch (IOException e) {
            e.printStackTrace();
        }


    }
}

實現將Kafka Topic中的資料傳入HBase

技術標籤：菜鳥也學大資料kafkaHBase大資料kafkahbase 準備前的操作主機對映：點選這裡

python實現將json多行資料傳入到mysql中使用

將json多行資料傳入到mysql中使用python實現表需要提前建立，字符集utf8 如果不行換成utf8mb4

Django實現將views.py中的資料傳遞到前端html頁面,並展示

自學Django已經有一週啦，想把自己自學過程中的每一步都記錄下來，給一些零基自學Django的戰友們一些參考；本次主要內容為，用一個例項展現views.py中的資料是如何傳遞到html頁面，並在頁面中展示。

Python實現將元組中的元素作為引數傳入函式的操作

本文由Markdown語法編輯器編輯完成。 1. 需求：現在有一個Python的需求需要實現：

shell指令碼將Oracle伺服器中資料定時增量重新整理到ftp伺服器中

現有需求：將oracle資料庫中的資料準實時同步至某ftp伺服器中，以便前端應用能定時從ftp伺服器目錄中取增量資料

Python3實現將本地JSON大資料檔案寫入MySQL資料庫的方法

本文例項講述了Python3實現將本地JSON大資料檔案寫入MySQL資料庫的方法。分享給大家供大家參考，具體如下：

pytorch 實現將自己的圖片資料處理成可以訓練的圖片型別

為了使用自己的影象資料，需要仿照pytorch資料輸入建立新的類，其中資料格式為numpy.ndarray。

Tensorflow 實現將影象與標籤資料轉化為tfRecord檔案

tensorflow中如果要對神經網路模型進行訓練，需要把訓練資料轉換為tfrecord格式才能被讀取，tensorflow的model檔案裡直接提供了相應的指令碼檔案在下面的資料夾中：

Java實現將容器 Map中的內容儲存到陣列

我就廢話不多說了，大家還是直接看程式碼吧~ import java.util.Map; import java.util.HashMap;

python3實現從kafka獲取資料,並解析為json格式,寫入到mysql中

專案需求：將kafka解析來的日誌獲取到資料庫的變更記錄，按照訂單的級別和訂單明細級別寫入資料庫，一條訂單的所有資訊包括各種維度資訊均儲存在一條json中，寫入mysql5.7中。

Python實現將MySQL資料庫表中的資料匯出生成csv格式檔案的方法

本文例項講述了Python實現將MySQL資料庫表中的資料匯出生成csv格式檔案的方法。分享給大家供大家參考，具體如下：

python中如何實現將資料分成訓練集與測試集的方法

接下來，直接給出大家響應的程式碼，並對每一行進行標註，希望能夠幫到大家。

Flink 從 0 到 1 學習之（24）Flink將kafka的資料存到redis中

1、依賴 <properties> <project.build.sourceEncoding>UTF-8</project.build.sourceEncoding>

使用java程式碼將下列介面中的資料進行合併,必須定義初始資料的儲存型別,必須定義結果集的資料型別,寫出實現合併的邏輯過程

public class Test { /*** * 使用java程式碼將下列介面中的資料進行合併,必須定義初始資料的儲存型別,必須定義結果集的資料型別,寫出實現合併的邏輯過程

Java Web程式實現將String型別資料轉換成JPG圖片並存儲在資料夾中

技術標籤：Android開發javatomcatservlethttpandroid 目錄前期準備Servlet檔案編寫前期準備

用Java實現將多級資料夾下的所有檔案統一放到一個資料夾中

package USEif; import java.io.File;import java.io.FileInputStream;import java.io.FileOutputStream;import java.io.IOException;

電商專案實戰Hive實現-將ETL資料載入到Hive表中

1、建立資料夾，放入原始資料 [hadoop@hadoop000 ~]$ hadoop fs -mkdir -p /project/input/raw [hadoop@hadoop000 data]$ hadoop fs -put trackinfo_20130721.data /project/input/raw/

linux中實現將連續的多列資料合併為一列資料

1、測試資料 root@DESKTOP-1N42TVH:/home/test# ls a.txt root@DESKTOP-1N42TVH:/home/test# cat a.txt 01 02 03 04 05 06 07 08 09

python將類似json的資料儲存到MySQL中的例項

由於之前對於爬取下來的資料都是存入MongoDB中，想起來還沒有嘗試存入MySQL，於是將一篇簡單的文章爬取下來，存入MySQL試試

Mysql將一個表中的某一列資料複製到另一個表中某一列裡的方法

mysql複製表中的一列到另一個表中有時候，我們需要複製某個欄位一整列的資料到另外一個新的欄位中，這很簡單，SQL可以這麼寫：

實現將Kafka Topic中的資料傳入HBase

建立Maven專案

實現程式碼(JAVA)

相關推薦