Flink 從 0 到 1 學習之（23）Flink 讀取hive並寫入hive

阿新 • • 發佈：2020-09-08

1，讀取實現了，也是找的資料，核心就是實現了

HCatInputFormat
HCatInputFormatBase

上面這兩個類，底層也是繼承實現了 RichInputFormat：

public abstract class HCatInputFormatBase<T> extends RichInputFormat<T, HadoopInputSplit> implements ResultTypeQueryabl

百度下載這個jar，然後把類找出來

依賴：（大概是這些）

<!--flink_hive依賴-->
<dependency> 

    <groupId>org.apache.flink</groupId>
    <artifactId>flink-hadoop-fs</artifactId>
    <version>1.6.2</version>
</dependency>
 
<dependency>
    <groupId>com.jolbox</groupId>
    <artifactId>bonecp</artifactId>
    <version>0.8.0.RELEASE</ 
version>
</dependency>
 
<dependency>
    <groupId>com.twitter</groupId>
    <artifactId>parquet-hive-bundle</artifactId>
    <version>1.6.0</version>
</dependency>
 
<dependency>
    <groupId>org.apache.hive</groupId>
    <artifactId 
>hive-exec</artifactId>
    <version>2.1.0</version>
</dependency>
 
 
<dependency>
    <groupId>org.apache.hive</groupId>
    <artifactId>hive-metastore</artifactId>
    <version>2.1.0</version>
</dependency>
 
 
<dependency>
    <groupId>org.apache.hive</groupId>
    <artifactId>hive-cli</artifactId>
    <version>2.1.0</version>
</dependency>
 
<dependency>
    <groupId>org.apache.hive</groupId>
    <artifactId>hive-common</artifactId>
    <version>2.1.0</version>
</dependency>
 
<dependency>
    <groupId>org.apache.hive</groupId>
    <artifactId>hive-service</artifactId>
    <version>2.1.0</version>
</dependency>
 
<dependency>
    <groupId>org.apache.hive</groupId>
    <artifactId>hive-shims</artifactId>
    <version>2.1.0</version>
</dependency>
 
<dependency>
    <groupId>org.apache.hive.hcatalog</groupId>
    <artifactId>hive-hcatalog-core</artifactId>
    <version>2.1.0</version>
</dependency>
 
<dependency>
    <groupId>org.apache.thrift</groupId>
    <artifactId>libfb303</artifactId>
    <version>0.9.3</version>
    <type>pom</type>
</dependency>
 
 
<dependency>
    <groupId>org.apache.flink</groupId>
    <artifactId>flink-hadoop-compatibility_2.11</artifactId>
    <version>1.6.2</version>
 
</dependency>
 
<dependency>
    <groupId>org.apache.flink</groupId>
    <artifactId>flink-shaded-hadoop2</artifactId>
    <version>1.6.2</version>
</dependency>

讀取hive資料：

package com.coder.flink.core.FlinkHive
 
 
import org.apache.flink.api.scala.ExecutionEnvironment
 
import org.apache.hadoop.conf.Configuration
import org.apache.flink.api.scala._
 
 
//讀取hive的資料
object ReadHive {
  def main(args: Array[String]): Unit = {
 
      val conf = new Configuration()
      conf.set("hive.metastore.local", "false")
 
      conf.set("hive.metastore.uris", "thrift://172.10.4.141:9083")
       //如果是高可用 就需要是nameserver
//      conf.set("hive.metastore.uris", "thrift://172.10.4.142:9083")
 
      val env = ExecutionEnvironment.getExecutionEnvironment
 
      //todo 返回型別
      val dataset: DataSet[TamAlert] = env.createInput(new HCatInputFormat[TamAlert]("aijiami", "test", conf))
 
      dataset.first(10).print()
//      env.execute("flink hive test")
 
 
  }
 
}

好訊息是 Flink 1.9支援了Hive讀寫介面不過我們可以用Hive Jdbc的方式去讀寫hive，可能就是效能會比較慢：

<dependency>
    <groupId>org.apache.hive</groupId>
    <artifactId>hive-jdbc</artifactId>
    <version>2.1.0</version>
</dependency>

package com.coder.flink.core.FlinkHive;
 
import java.sql.Connection;
import java.sql.DriverManager;
import java.sql.ResultSet;
import java.sql.Statement;
 
import java.sql.*;
 
public class FlinkReadHive {
    public static void main(String[] args) throws ClassNotFoundException, SQLException {
 
        Class.forName("org.apache.hive.jdbc.HiveDriver");
        Connection con = DriverManager.getConnection("jdbc:hive2://172.10.4.143:10000/aijiami","hive","hive");
        Statement st = con.createStatement();
        ResultSet rs = st.executeQuery("SELECT * from ods_scenes_detail_new limit 10");
        while (rs.next()){
            System.out.println(rs.getString(1) + "," + rs.getString(2));
        }
        rs.close();
        st.close();
        con.close();
 
 
    }
}

public class HiveApp {
     
    private static String driver = "org.apache.hive.jdbc.HiveDriver";
    private static String url = "jdbc:hive2://Master:10000/default";
    private static String user = "root"; //一般情況下可以使用匿名的方式，在這裡使用了root是因為整個Hive的所有安裝等操作都是root
    private static String password = "";
 
    public static void main(String[] args) {
        ResultSet res = null;
         
        try {
            /**
             * 第一步：把JDBC驅動通過反射的方式載入進來
             */
            Class.forName(driver);
             
            /**
             * 第二步：通過JDBC建立和Hive的聯結器，預設埠是10000，預設使用者名稱和密碼都為空
             */
            Connection conn = DriverManager.getConnection(url, user, password); 
             
            /**
             * 第三步：建立Statement控制代碼，基於該控制代碼進行SQL的各種操作；
             */
            Statement stmt = conn.createStatement();
             
            /**
             * 接下來就是SQL的各種操作；
             * 第4.1步驟：建表Table,如果已經存在的話就要首先刪除；
             */
            String tableName = "testHiveDriverTable";
            stmt.execute("drop table if exists " + tableName );
            
             
            stmt.execute("create table " + tableName + " (id int, name string)" + "ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' LINES TERMINATED BY '\n'");
            /**
             *  第4.2步驟：查詢建立的Table；
             */
            String sql = "show tables '" + tableName + "'";
            System.out.println("Running: " + sql);
            res = stmt.executeQuery(sql);
            if (res.next()) {
              System.out.println(res.getString(1));
            }
            /**
             *  第4.3步驟：查詢建立的Table的schema；
             */
            sql = "describe " + tableName;
            System.out.println("Running: " + sql);
            res = stmt.executeQuery(sql);
            while (res.next()) {
              System.out.println(res.getString(1) + "\t" + res.getString(2));
            }
          
            /**
             *  第4.4步驟：載入資料進入Hive中的Table；
             */
            String filepath = "/root/Documents/data/sql/testHiveDriver.txt";
            sql = "load data local inpath '" + filepath + "' into table " + tableName;
            System.out.println("Running: " + sql);
            stmt.execute(sql);
          
            /**
             *  第4.5步驟：查詢進入Hive中的Table的資料；
             */
            sql = "select * from " + tableName;
            System.out.println("Running: " + sql);
            res = stmt.executeQuery(sql);
            while (res.next()) {
              System.out.println(String.valueOf(res.getInt(1)) + "\t" + res.getString(2));
            }
          
            /**
             *  第4.6步驟：Hive中的對Table進行統計操作；
             */
            sql = "select count(1) from " + tableName;   //在執行select count(*) 時候會生成mapreduce 操作  ，那麼需要啟動資源管理器 yarn  ： start-yarn.sh 
            System.out.println("Running: " + sql);
            res = stmt.executeQuery(sql);
           
            while (res.next()) {
              System.out.println("Total lines :" + res.getString(1));
            }    
             
        } catch (Exception e) {
            // TODO Auto-generated catch block
            e.printStackTrace();
        }   
         
         
 
    }
 
}

寫入HDFS的簡單案例：

package com.coder.flink.core.test_demo
 
import org.apache.flink.api.scala.{DataSet, ExecutionEnvironment, _}
import org.apache.flink.core.fs.FileSystem.WriteMode
 
object WriteToHDFS {
  def main(args: Array[String]): Unit = {
    val env = ExecutionEnvironment.getExecutionEnvironment
    //2.定義資料 stu(age,name,height)
    val stu: DataSet[(Int, String, String)] = env.fromElements(
      (19, "zhangsan","aaaa"),
      (1449, "zhangsan","aaaa"),
      (33, "zhangsan","aaaa"),
      (22, "zhangsan","aaaa")
    )
 
    //todo 輸出到本地
    stu.setParallelism(1).writeAsText("file:///C:/Users/Administrator/Desktop/Flink程式碼/測試資料/test001.txt",
      WriteMode.OVERWRITE)
    env.execute()
 
 
    //todo 寫入到hdfs，文字文件,路徑不存在則自動建立路徑。
    stu.setParallelism(1).writeAsText("hdfs:///output/flink/datasink/test001.txt",
      WriteMode.OVERWRITE)
    env.execute()
 
    //todo 寫入到hdfs，CSV文件
    //3.1讀取csv檔案
    val inPath = "hdfs:///input/flink/sales.csv"
    case class Sales(transactionId: String, customerId: Int, itemId: Int, amountPaid: Double)
    val ds2 = env.readCsvFile[Sales](
      filePath = inPath,
      lineDelimiter = "\n",
      fieldDelimiter = ",",
      lenient = false,
      ignoreFirstLine = true,
      includedFields = Array(0, 1, 2, 3),
      pojoFields = Array("transactionId", "customerId", "itemId", "amountPaid")
    )
    //3.2將CSV文件寫入到hdfs
    val outPath = "hdfs:///output/flink/datasink/sales.csv"
    ds2.setParallelism(1).writeAsCsv(filePath = outPath, rowDelimiter = "\n",fieldDelimiter = "|", WriteMode.OVERWRITE)
 
    env.execute()
  }
}

Flink 從 0 到 1 學習之（23）Flink 讀取hive並寫入hive

1，讀取實現了，也是找的資料，核心就是實現了 HCatInputFormatHCatInputFormatBase 上面這兩個類，底層也是繼承實現了 RichInputFormat：

Flink 從 0 到 1 學習之（2） Flink 配置檔案詳解

前面文章我們已經知道 Flink 是什麼東西了，安裝好 Flink 後，我們再來看下安裝路徑下的配置檔案吧。

Flink 從 0 到 1 學習之（10）Flink 專案如何執行？

前言之前寫了不少 Flink 文章了，也有不少 demo，但是文章寫的時候都是在本地直接執行 Main 類的 main 方法，其實 Flink 是支援在 UI 上上傳 Flink Job 的 jar 包，然後執行得。

Flink 從 0 到 1 學習之（13）Flink 讀取 Kafka 資料寫入到 RabbitMQ FlinkKafkaRabbitMQ大資料流式計算

前言之前有文章《從0到1學習Flink》—— Flink 寫入資料到 Kafka寫過 Flink 將處理後的資料後發到 Kafka 訊息佇列中去，當然我們常用的訊息佇列可不止這一種，還有 RocketMQ、RabbitMQ 等，剛好 Flink

Flink 從 0 到 1 學習之（12）Flink 讀取 Kafka 資料批量寫入到 MySQL

前言之前其實在《從0到1學習Flink》—— 如何自定義 Data Sink ？文章中其實已經寫了點將資料寫入到 MySQL，但是一些配置化的東西當時是寫死的，不能夠通用，最近知識星球裡有朋友叫我: 寫個從 kafka 中

Flink 從 0 到 1 學習之（14）Flink 讀取kafka資料，寫入到Hbase

概述環境說明 scala: 2.12.8 linux下scala安裝部署 flink : 1.8.1Flink1.8.1 叢集部署 kafka_2.12-2.2.0kafka_2.12-2.2.0 叢集部署

Flink 從 0 到 1 學習之（16）Flink DataStream之Kafka資料寫入HDFS，並分割槽到Hive

因業務要求，我們需要從Kafka中讀取資料，變換後最終Sink到業務的訊息佇列中，為保證資料的可靠性，我們同時對Sink的結果資料，進行儲存。最終選擇將流資料Sink到HDFS上，在Flink中，同時也提供了HDFS Connector。下

Flink 從 0 到 1 學習之（18）Flink SQL讀取kafka資料並通過JDBC方式寫入Clickhouse實時場景的簡單例項

說明讀取kafka資料並且經過ETL後，通過JDBC存入clickhouse中程式碼定義POJO類： 12345678

Flink 從 0 到 1 學習之（20）Flink讀取hdfs檔案

接一下以一個示例配置來介紹一下如何以Flink連線HDFS 1. 依賴HDFS pom.xml 新增依賴

Flink 從 0 到 1 學習之（21）Flink讀HBase並寫入HBase

這裡讀HBase提供兩種方式，一種是繼承RichSourceFunction，重寫父類方法，一種是實現OutputFormat介面，具體程式碼如下：

Flink 從 0 到 1 學習之（25）Flink從redis中獲取資料作為source源

redis中的資料：需要實現SourceFunction介面，指定泛型<>,也就是獲取redis裡的資料，處理完後的資料輸入的資料型別這裡我們需要的是（我們需要返回kv對的，就要考慮HashMap）pom.xml

Flink 從 0 到 1 學習之（24）Flink將kafka的資料存到redis中

1、依賴 <properties> <project.build.sourceEncoding>UTF-8</project.build.sourceEncoding>

Flink 從 0 到 1 學習之（26）Flink採集kafka資料後存到mongodb

實體類： import java.io.Serializable; public class FlinkDao implements Serializable{ private String id;

Flink 從 0 到 1 學習之（3） Data Source 介紹

前言 Data Sources 是什麼呢？就字面意思其實就可以知道：資料來源。 Flink 做為一款流式計算框架，它可用來做批處理，即處理靜態的資料集、歷史的資料集；也可以用來做流處理，即實時的處理些實時資料流，實時的產

Flink 從 0 到 1 學習之（5）如何自定義 Data Source ？

前言我給大家介紹了 Flink Data Source 以及簡短的介紹了一下自定義 Data Source，這篇文章更詳細的介紹下，並寫一個 demo 出來讓大家理解。

Flink 從 0 到 1 學習之（6）如何自定義 Data Sink ？

前言前篇文章介紹了 Flink Data Sink，也介紹了 Flink 自帶的 Sink，那麼如何自定義自己的 Sink 呢？這篇文章將寫一個 demo 教大家將從 Kafka Source 的資料 Sink 到 MySQL 中去。

Flink 從 0 到 1 學習之（8）介紹Flink中的Stream Windows

前言目前有許多資料分析的場景從批處理到流處理的演變，雖然可以將批處理作為流處理的特殊情況來處理，但是分析無窮集的流資料通常需要思維方式的轉變並且具有其自己的術語（例如，“windowing（視窗化）&rd

SparkStreaming專案實戰從 0 到 1 學習之（1）使用 Kafka + Spark Streaming + Cassandra 構建資料實時處理引擎

Apache Kafka 是一個可擴充套件，高效能，低延遲的平臺，允許我們像訊息系統一樣讀取和寫入資料。我們可以很容易地在 Java 中使用 Kafka。

Spark專案實戰從0到1之（3）spark讀取hive資料

1.首先將叢集的這3個檔案hive-site.xml，core-size.xml,hdfs-site.xml放到資原始檔裡(必須，否則報錯)

Spark專案實戰從0到1之（6）Spark 讀取mysql中的資料

Spark（直接讀取mysql中的資料）兩種方法的目的：進行mysql資料的資料清洗方法一：

Flink 從 0 到 1 學習之（23）Flink 讀取hive並寫入hive

相關推薦