spark讀hdfs(hive表)處理資料結果落hive表Demo

阿新 • • 發佈：2019-01-11

一、查詢引擎測試壓測demo實現邏輯

很久沒寫spark工程了，近期需要一個查詢引擎測試壓測工具，以hive(HDFS)中每日落盤的查詢來壓測引擎效能，正適合用spark讀hdfs，結果落hive。小結個小demo吧

(1) 實現邏輯

spark讀取HDFS中儲存的隨機某天(以引數形式傳入)的查詢(hive_test.engine_queryjson表的第二列即為查詢）
以2秒為間隔向引擎提交查詢
每隔2秒輪詢查詢結果，5分鐘查詢未完畢視為查詢超時
將查詢執行狀態寫入狀態結果表（hive_test.query_result_info）

(2)提交程式碼至spark執行.

打包
spark-submit提交jar包

spark-submit參考spark官文：Submitting Applications

這裡mian函式設有一個日期引數，格式”20190106“，標識hive_test.engine_queryjson某天粒度分割槽.

備註：cluster mode讀取hive 需通過–files 指定hive-site, 如果叢集已配置可忽略

spark-submit \
--master yarn \
--deploy-mode cluster \
--files hdfs://xxxxx/hive-site.xml\ 指定hive-site，叢集已配置可忽略
--queue 這裡佇列 \
--class com.learn.QuerySender \
./query_sender-1.0-SNAPSHOT-jar-with-dependencies.jar \
20190106

(3) 結果落Hive表用於分析

執行完畢後，每個查詢的執行狀態會寫入hive_test.query_result_info，查詢該表做相關統計或分析即可

二、主要程式碼說明.

(1) `hive_test.query_result_info`建表語句.

CREATE EXTERNAL TABLE `hive_test.query_result_info `(
  `query ` string COMMENT 'query',
  `code` int COMMENT 'result code',
  `info` string COMMENT 'query info')
COMMENT 'query result table'
PARTITIONED BY (
  `dt` string COMMENT 'dt')

(2) 主要程式碼片段

package com.learn
import com.alibaba.fastjson.JSON
import com.learn.util.HttpUtil
import org.slf4j.LoggerFactory
import org.apache.spark.{SparkConf, SparkContext}
import org.apache.spark.sql.hive.HiveContext
/**
  * query result
  * @param queryJson  query
  * @param code       result code
  * @param info       query info
  */
case class QueryResult (
                         query: String, // query json
                         code: Int, // result code
                         info: String // query info
                       )
object QuerySender {
  val queryUrl = "xxx"
  val queryResultUrl = "XXX"
  val queryTimeout = 300000 // 5minute timeout
  val queryPolingInterval = 2000 // 2秒中輪詢超時結果
  val queryInterval = 2000 // 2秒查詢間隔
   
  def main(args: Array[String]) {
    val logger = LoggerFactory.getLogger(QuerySender.getClass)
    
    val dt = args.apply(0)
    println("dt=" + dt)
    //val hadoopUserName = args.apply(1)
    //val hadoopUserPassWord = args.apply(2)
    //println("hadoopUserName=" + hadoopUserName)
    //println("hadoopUserPassWord=" + "hadoopUserPassWord")
    //System.setProperty("HADOOP_USER_NAME", hadoopUserName)
    //System.setProperty("HADOOP_USER_PASSWORD", hadoopUserPassWord)
     
    val conf = new SparkConf()
    conf.setAppName("HdfsReader")
    //conf.setMaster("local") // 本地測試
     
    // ---讀取Hdfs-這裡示範讀取hdfs，亦可以改為讀hive表(具體程式碼這裡不貼了)--
    val sc = SparkContext.getOrCreate(conf)
    var hdfsFile = sc.textFile(s"hdfs://xxxx/engine_queryjson/dt=$dt/000000_0")
    var hivedata = hdfsFile.map(_.split("\t")).map(e => (e(1), e(2),e(0)))
    println(hivedata.first()._2)// 第二列為query字串
     
    // ---提交查詢---
    var queryResults = scala.collection.mutable.ArrayBuffer[QueryResult]()
    println("提交查詢.....")
    hivedata.foreach(v => {
      queryResults.append(submmitQuery(v._2))
      Thread.sleep(queryInterval) // 2秒查詢間隔
    })
     
    // ---查詢結果寫Hive---
    val sqlContext = new HiveContext(sc)
    import sqlContext.implicits._
     
    queryResults.toDF("query", "code", "info").registerTempTable("queryResultTempTable")
    println("start insert overwrite table....")
    sqlContext.sql("set hive.exec.dynamic.partition=true")
    sqlContext.sql("set hive.exec.dynamic.partition.mode=nonstrict")
    sqlContext.sql("insert overwrite table hive_test.query_result_info  partition(dt) " +
      s"select query, code, info, $dt " +
      "from queryResultTempTable ")
     
    sc.stop()
  }
  /**
    * 提交查詢
    * 提交查詢，這裡假設返回資訊meta中有code和status標識查詢狀態
    * code：2超時，1失敗， 0成功
    * HttpUtil為以java實現的http工具包(本工程為java、scala混合程式設計，此不詳述，見pom）
    * 每隔2秒輪詢查詢結果，查詢超時時間5分鐘
    * @param query.     查詢
    * @return           查詢結果
    */
  def submmitQuery(query: String): QueryResult = {
    val startTime = System.currentTimeMillis()
    val result = scala.collection.mutable.Map[String, String]()
    val responseDirect = HttpUtil.postJson(queryUrl, query) //提交查詢，responseDirect為返回狀態
    println("查詢狀態:" + responseDirect.toString)
    // 解析狀態  
    val jsonResponse = JSON.parseObject(responseDirect)
    val code = jsonResponse.getJSONObject("meta").getIntValue("code")
    val satus = jsonResponse.getJSONObject("meta").getString("satus")
    val msg = jsonResponse.getJSONObject("meta").getString("msg")
    if (code == 1 || code == 0) {// 2超時，1失敗， 0成功
      // 查詢成功、失敗
      return QueryResult(query, code, msg)
    } else {
      while(true) {
        if (System.currentTimeMillis() - startTime >= queryTimeout) {
          // 5分鐘超時
          return QueryResult(query, 2, "timeout")
        } else {
          val responseRetry = HttpUtil.postJson(queryResultUrl, query) //超時，開始輪詢查詢結果
          val code = jsonResponse.getJSONObject("meta").getIntValue("code")
          val satus = jsonResponse.getJSONObject("meta").getString("satus")
          val msg = jsonResponse.getJSONObject("meta").getString("msg")
          if (code == 1 || code == 0) {
            // 查詢成功、失敗
            return QueryResult(query, code, msg)
          }
          Thread.sleep(queryPolingInterval) // 2秒輪詢結果
        }
      }
      return QueryResult(queryJson, 2, "timeout")
    }
  }
}

(3) pom

<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
         xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
  <modelVersion>4.0.0</modelVersion>

  <groupId>com.learn</groupId>
  <artifactId>query_sender</artifactId>
  <version>1.0-SNAPSHOT</version>
  <packaging>jar</packaging>

  <name>query_sender</name>
  <url>http://maven.apache.org</url>

  <properties>
    <project.build.sourceEncoding>UTF-8</project.build.sourceEncoding>
    <spark.version>2.2.0</spark.version>
    <scala.version>2.11.6</scala.version>
    <fastjson.version>1.2.29</fastjson.version>
  </properties>

  <dependencies>
    <dependency>
      <groupId>junit</groupId>
      <artifactId>junit</artifactId>
      <version>3.8.1</version>
      <scope>test</scope>
    </dependency>
    <dependency>
      <groupId>org.scala-lang</groupId>
      <artifactId>scala-library</artifactId>
      <version>${scala.version}</version>
    </dependency>
    
    <!-- https://mvnrepository.com/artifact/org.apache.spark/spark-core -->
    <dependency>
      <groupId>org.apache.spark</groupId>
      <artifactId>spark-core_2.11</artifactId>
      <version>${spark.version}</version>
    </dependency>

    <dependency>
      <groupId>org.apache.spark</groupId>
      <artifactId>spark-hive_2.10</artifactId>
      <version>${spark.version}</version>
      <scope>provided</scope>
    </dependency>

    <dependency>
      <groupId>org.apache.spark</groupId>
      <artifactId>spark-sql_2.10</artifactId>
      <version>${spark.version}</version>
      <scope>provided</scope>
    </dependency>
    
    <dependency>
      <groupId>com.alibaba</groupId>
      <artifactId>fastjson</artifactId>
      <version>${fastjson.version}</version>
    </dependency>

    <dependency>
      <groupId>net.alchim31.maven</groupId>
      <artifactId>scala-maven-plugin</artifactId>
      <version>3.2.0</version>
    </dependency>
  </dependencies>

  <build>
  <sourceDirectory>src/main/scala</sourceDirectory>
  <testSourceDirectory>src/test/scala</testSourceDirectory>
  <plugins>
    <plugin>
      <groupId>net.alchim31.maven</groupId>
      <artifactId>scala-maven-plugin</artifactId>
      <version>3.1.3</version>
      <executions>
        <execution>
          <goals>
            <goal>compile</goal>
            <goal>testCompile</goal>
          </goals>
          <configuration>
            <args>
              <!--這裡不新增-take-->
              <arg>-dependencyfile</arg>
              <arg>${project.build.directory}/.scala_dependencies</arg>
            </args>
          </configuration>
        </execution>
      </executions>
    </plugin>
    <plugin>
      <groupId>org.apache.maven.plugins</groupId>
      <artifactId>maven-assembly-plugin</artifactId>
      <version>2.4</version>
      <configuration>
        <descriptorRefs>
          <descriptorRef>jar-with-dependencies</descriptorRef>
        </descriptorRefs>
      </configuration>
      <executions>
        <execution>
          <id>assemble-all</id>
          <phase>package</phase>
          <goals>
            <goal>single</goal>
          </goals>
        </execution>
      </executions>
    </plugin>
    <plugin>
      <groupId>org.apache.maven.plugins</groupId>
      <artifactId>maven-surefire-plugin</artifactId>
      <version>2.13</version>
      <configuration>
        <useFile>false</useFile>
        <disableXmlReport>true</disableXmlReport>
        <!-- If you have classpath issue like NoDefClassError,... -->
        <!-- useManifestOnlyJar>false</useManifestOnlyJar -->
        <includes>
          <include>**/*Test.*</include>
          <include>**/*Suite.*</include>
        </includes>
      </configuration>
    </plugin>
  </plugins>
</build>
</project>

三、參考

spark官文-Submitting Applications

spark讀hdfs(hive表)處理資料結果落hive表Demo

一、查詢引擎測試壓測demo實現邏輯很久沒寫spark工程了，近期需要一個查詢引擎測試壓測工具，以hive(HDFS)中每日落盤的查詢來壓測引擎效能，正適合用spark讀hdfs，結果落hive。小結個小demo吧 (1) 實現邏輯 spark讀取HDFS中儲存的隨

spark讀hdfs檔案實現wordcount並將結果存回hdfs

package iie.udps.example.operator.spark; import scala.Tuple2; import org.apache.spark.SparkConf; import org.apache.spark.api.java.Jav

IDEA中 Spark 讀Hbase 報錯處理：

ado htable client ets rim ogg expec zookeep ati SLF4J: Actual binding is of type [org.slf4j.impl.Log4jLoggerFactory] 17/11/19 14:25:57 E

SQL server 中while迴圈的使用方法，將day表的資料累加到sum表

因為在保險行業工作，在統計資料的時候會遇到將每天的資料累加起來作為年累計的資料落到sum表中。涉及公司的機密就不把實際的表結構和資料展示，我重新建立一些測試表來說明while迴圈的神奇之處，day的資料累加到sum表中。一、準備資料表t

jQuery 序列化表單資料 jQuery 序列化表單資料 serialize() serializeArray()

【轉自】jQuery 序列化表單資料 serialize() serializeArray() 1.serialize()方法　　格式：var data = $("form").serialize(); 　　功能：將表單內容序列化成一個字串。　

Struts2框架自學之路——Action獲取表單資料的方式以及表單資料的封裝

目錄 Action獲取表單資料的方式通過ActionContext類獲取使用ServletActionContext類獲取通過特定介面訪問在Action中操作域物件 Action中原始方式封裝表單資料 Struts2中表單資料的封裝屬性封裝

pyhon通過讀取excel的表結構資料，形成建表語句

excel中需要包含：第一列為欄位名稱，第二列為欄位型別，第三列為欄位長度，第四列為是否為主鍵利用Y/N區分 import xlrd import os def convert_type(data_type): """Normalize MySQL `data_type`"""

mysql結構相同的資料表，資料合併到一個表

1、拼接生成批量插入語句 SELECT concat('insert into ordertarget(欄位名) select 欄位名 from ',table_name,';') FROM information_schema.TABLES WHERE table_name LIKE 'eco

資料表資料遷移——複製一個表的資料到另外一個表

通過 SQL，你可以從一個表複製資訊到另一個表。 MySQL 資料庫不支援 SELECT ... INTO 語句，但支援 INSERT INTO ... SELECT 。 1、SQL SELECT INTO 語法 SELECT INTO 語句從一個表複製資料，然後把資

Oracle中用一個表的資料更新另一個表的資料

Oracle中用一個表的資料更新另一個表的資料　　有下面兩個表：將表tab1中id值與和表tab2中id值相同的行的val更新為tab2中val的值。　　select * from tab1; 　　select * from tab2 　　最容易犯的錯誤是：u

用一個表的資料更新另外一個表資料的用法(update from)

Oralce和DB2都支援的語法：UPDATE ASET (A1, A2, A3) = (SELECT B1, B2, B3 FROM B WHERE A.ID = B.ID)MS SQL Server不支援這樣的語法，相對應的寫法為：UPDATE A SET A1 = B1, A2 = B2, A3

本地管理的表空間--資料字典管理的表空間

6.5資料字典表空間 --建立資料字典表空間 CREATE TABLESPACE JINLINA DATAFILE 'C:\Disk2\MOON\JINLIAN01.DBF' SIZE 50M, 'C:\Disk4\MOON\JINLIAN02.DBF'

【SQL Server高可用性】資料庫複製：SQL Server 2008R2中通過資料庫複製，把A表的資料複製到B表

經常在論壇中看到有人問資料同步的技術，如果只是同步少量的表，那麼可以考慮使用連結伺服器+觸發器，來實現資料同步，但當要同步的資料表比較多，那麼可以考慮用資料庫複製技術，來實現資料的同步。一、使用場

SQL Server 中如何用一個表的資料更新另一個表中的資料

for ACCESS 資料庫: update a, b set a.name=b.name1 where a.id=b.id for SQL Server 資料庫: update a set a.name=b.name1 from a,b where a.id=b.id

mysql連表更新（用一個表的資料更新另一個表的資料）

用一個表中的欄位去更新另外一個表中的欄位，來看一個簡單的例子就會了： create table student ( student_id int not null

追蹤openvswitch對特定資料報文的流表匹配與處理結果的例項

SDN環境中，每一個openvswitch的datapath例項中都會有大量的流表項，無論是使用各種關鍵字的grep手段或者是其他方法來確認是否由控制器下發了預期正確流表項，還是看關於特定資料包的匹配與最終action都是一件非常繁瑣和頭疼的事情。使用ovs-appctl工具結合linux自帶的tcpdump

使用spark將記憶體中的資料寫入到hive表中

使用spark將記憶體中的資料寫入到hive表中 hive-site.xml <?xml version="1.0" encoding="UTF-8" standalone="no"?> <?xml-stylesheet type="text/xsl" href="configurati

把kafka資料從hbase遷移到hdfs，並按天載入到hive表(hbase與hadoop為不同叢集)

需求：由於我們用的阿里雲Hbase，按儲存收費，現在需要把kafka的資料直接同步到自己搭建的hadoop叢集上，(kafka和hadoop叢集在同一個區域網)，然後對接到hive表中去，表按每天做分割槽一、首先檢視kafka最小偏移量（offset） /usr/local/kafka/bin/k

相同資料來源情況下，使用Kafka實時消費資料 vs 離線環境下全部落表後處理資料，結果存在差異

原因分析：當某個consumer宕機時，消費位點(例如2s提交一次)尚未提交到zookeeper，此時Kafka叢集自動rebalance後另一consumer來接替該宕機consumer繼續消費，因為先前宕機consumer最近的消費位點尚未提交，導致資料重複消費突發流量、跨機房(網路請求延

使用shell將hdfs上的資料匯入到hive表中

days=($(seq 20150515 20150517)) hours=() for (( i=0; i<=23;++i)) do if [ $i -lt 10 ]; then

spark讀hdfs(hive表)處理資料結果落hive表Demo

一、查詢引擎測試壓測demo實現邏輯

(1) 實現邏輯

(2)提交程式碼至spark執行.

(3) 結果落Hive表用於分析

二、主要程式碼說明.

(1) hive_test.query_result_info建表語句.

(2) 主要程式碼片段

(3) pom

三、參考

相關推薦

(1) `hive_test.query_result_info`建表語句.