spark讀取hbase(NewHadoopAPI 例子)

阿新 • • 發佈：2018-11-19

package cn.piesat.controller

import java.text.{DecimalFormat, SimpleDateFormat}
import java.util
import java.util.concurrent.{CountDownLatch, Executors, Future}

import ba.common.log.enums.{LogLevel, LogType}
import ba.common.log.utils.LogUtil
import cn.piesat.constants.{HbaseZookeeperConstant, RowkeyConstant}
import cn.piesat.domain._
import cn.piesat.service.impl.{MsgServiceImpl, SparkTaskServiceImpl}
import cn.piesat.thread.HbaseQueryThread
import com.google.gson.Gson
import org.apache.hadoop.hbase.HBaseConfiguration
import org.apache.hadoop.hbase.client.{Result, Scan}
import org.apache.hadoop.hbase.filter.{Filter, FilterList}
import org.apache.hadoop.hbase.mapreduce.TableInputFormat
import org.apache.hadoop.hbase.protobuf.ProtobufUtil
import org.apache.hadoop.hbase.util.{Base64, Bytes}
import org.apache.hadoop.hbase.io.ImmutableBytesWritable
import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext}
import pie.storage.db.domain._
import pie.storage.db.enums.{CompareOp, DataBaseType}

/**
  * @author liujie
  *         spark查詢hbase的入口類
  */
object HbaseReader {
  val sparkTaskService = new SparkTaskServiceImpl
  val msgService = new MsgServiceImpl
  val sparkAppName = "sparkApp"
  val sparkMaster = "local[6]"
  var taskId = 8
  val serviceNum = 76
  val systemId = 12011
  val systemName = "8888"
  val cf = "cf1"
  val cell = "content"
  val zookeeperHost = "bigdata03,bigdata04,bigdata05"
  val zookeeperPort = "2181"
  val excutor=Executors.newCachedThreadPool()

  def main(args: Array[String]): Unit = {
    try{
      if (args.length > 0) {
        taskId = args(0).toInt
      }
      /**
        * 第一步，獲取SparkContext物件
        */
      val sc = getSparkContext
      /**
        * 第二步，獲得查詢引數集合
        */
      val taskParamList = getTaskParam(taskId, sc)
      /**
        * 第三步，進行hbase資料查詢
        */
      val rowkeyRDD = queryHbaseData(taskParamList, sc)

      rowkeyRDD.saveAsTextFile("file://")
      println("rowkeyRDD的數量為：" + rowkeyRDD.count())
      val rowkey = rowkeyRDD.first()
      println("取出的值為："+util.Arrays.toString(rowkey._2.getValue(cf.getBytes(),cell.getBytes())))

      /**
        * 第四步，進行資料解析
        */

      /**
        * 第五步，將結果寫入文字，文字地址在第二步中的taskParamList中
        */

    }catch {
      case e:Exception =>{
        e.printStackTrace()
      }
    }finally {
      excutor.shutdown()
    }


    excutor.shutdown()

  }

  /**
    * 獲取任務Id
    *
    * @param args
    * @return
    */
  private def getTaskId(args: Array[String]): Int = {
    if (args == null || args.length <= 0) {
      -1;
    } else {
      try {
        args.apply(0).toInt
      } catch {
        case e: Exception =>
          -1
      }
    }
  }

  /**
    * 獲取sparkContext
    *
    * @return
    */

  private def getSparkContext(): SparkContext = {
    val sparkConf = new SparkConf().setAppName(sparkAppName).setMaster(sparkMaster)
    sparkConf.set("spark.broadcast.factory", "org.apache.spark.broadcast.HttpBroadcastFactory")
    sparkConf.set("spark.network.timeout", "300")
    sparkConf.set("spark.streaming.unpersist", "true")
    sparkConf.set("spark.scheduler.listenerbus.eventqueue.size", "100000")
    sparkConf.set("spark.storage.memoryFraction", "0.5")
    sparkConf.set("spark.shuffle.consolidateFiles", "true")
    sparkConf.set("spark.shuffle.file.buffer", "64")
    sparkConf.set("spark.shuffle.memoryFraction", "0.3")
    sparkConf.set("spark.reducer.maxSizeInFlight", "24")
    sparkConf.set("spark.shuffle.io.maxRetries", "60")
    sparkConf.set("spark.shuffle.io.retryWait", "60")
    sparkConf.set("spark.serializer", "org.apache.spark.serializer.KryoSerializer")
    new SparkContext(sparkConf)
  }

  /**
    * 獲取sparkTask的任務引數集合
    *
    * @param taskId
    * @return
    */
  private def getTaskParam(taskId: Int, sc: SparkContext): List[Tuple4[String, String, String, util.List[Filter]]] = {
    var list: List[Tuple4[String, String, String, util.List[Filter]]] = List()
    val sparkTask = sparkTaskService.getSparkTaskByTaskId(taskId)
    val params = sparkTask.getQueryParam
    val gson = new Gson
    val sparkQueryParams = gson.fromJson(params, classOf[SparkQueryParams])
    try {
      //1.**
      val systemId = sparkQueryParams.getSystemId
      //2.開始時間
      val startTime = sparkQueryParams.getStartTime
      //3.結束時間
      val endTime = sparkQueryParams.getEndTime
      //4.**
      val stationId = sparkQueryParams.getStationId
      val paramList = sparkQueryParams.getParams
      for (i <- 0 until paramList.size()) {
        val param = paramList.get(i)
        //5.**
        val msgId = param.getMsgId
        //6.**
        val sinkId = param.getSinkId
        //7.**
        val sourceId = param.getSourceId
        //8.表名
        val tableName = msgService.getTieYuanMsgTableNameById(msgId);
        for (num <- 0 until serviceNum) {
          val rowkeyAndFilters = getRowkeyAndFilters(num, systemId, startTime, endTime, stationId, msgId, sinkId, sourceId, tableName)
          list = rowkeyAndFilters :: list
        }
      }
      list
    } catch {
      case e: Exception =>
        LogUtil.writeLog(systemId, LogLevel.ERROR, LogType.NORMAL_LOG, systemName + " Error Info:任務引數異常。" + e)
        null
    }
  }

  /**
    * hbase資料查詢
    */
  private def queryHbaseData(taskParamList: List[(String, String, String, util.List[Filter])], sc: SparkContext): RDD[(ImmutableBytesWritable, Result)] = {
    var rdd: RDD[(ImmutableBytesWritable, Result)] = null
    val latch:CountDownLatch=new CountDownLatch(taskParamList.length)
    val list: util.List[Future[RDD[Tuple2[ImmutableBytesWritable, Result]]]]=new util.ArrayList[Future[RDD[Tuple2[ImmutableBytesWritable, Result]]]]()
    for (taskParam <- taskParamList) {
      list.add(excutor.submit(new HbaseQueryThread(taskParam,sc,latch)))
    }
    import scala.collection.JavaConversions._
    for(li <- list){
      if(rdd==null){
        rdd=li.get()
      }else{
        rdd=rdd.++(li.get())
      }
    }
    latch.await()
    rdd
  }


  /**
    * 獲取
    *
    * @param num
    * @param systemId
    * @param startTime
    * @param endTime
    * @param stationId
    * @param msgId
    * @param sinkId
    * @param sourceId
    * @return
    */
  private def getRowkeyAndFilters(num: Int, systemId: Int, startTime: String,
                                  endTime: String, stationId: Int, msgId: Int,
                                  sinkId: Int, sourceId: Int,
                                  tableName: String): Tuple4[String, String, String, util.List[Filter]]

  = {
    //執行緒非安全,因此每次呼叫時建立新的物件
    val simpleDateFormat1 = new SimpleDateFormat("yyyy-MM-dd HH:mm:ss:SSS")
    val simpleDateFormat2 = new SimpleDateFormat("yyyyMMddHHmmssSSS")
    val decimalFormat = new DecimalFormat("00")
    val queryDef = new QueryDef
    //1.設定資料庫
    queryDef.setDataBaseType(DataBaseType.HBASE)
    //2.設定表名
    queryDef.setTableName(tableName)
    //3.設定請求引數集合
    //3.1設定**Id引數
    val systemIdParam = new QueryParam
    systemIdParam.setField(new Field(new FieldInfo(RowkeyConstant.SYSTEM_ID), new FieldValue(systemId)))
    systemIdParam.setCompareOp(CompareOp.EQUAL)
    //3.2設定**
    val msgIdParam = new QueryParam
    msgIdParam.setField(new Field(new FieldInfo(RowkeyConstant.MSG_ID), new FieldValue(msgId)))
    msgIdParam.setCompareOp(CompareOp.EQUAL)
    //3.3設定開始時間引數
    val startTimeParam = new QueryParam
    val startTimeFormat = simpleDateFormat2.format(simpleDateFormat1.parse(startTime))
    startTimeParam.setField(new Field(new FieldInfo(RowkeyConstant.TIME), new FieldValue(startTimeFormat)))
    startTimeParam.setCompareOp(CompareOp.GREATER)
    //3.4設定結束時間引數
    val endTimeParam = new QueryParam
    val endTimeFormat = simpleDateFormat2.format(simpleDateFormat1.parse(endTime))
    endTimeParam.setField(new Field(new FieldInfo(RowkeyConstant.TIME), new FieldValue(endTimeFormat)))
    endTimeParam.setCompareOp(CompareOp.LESS)
    //3.5設定**
    val sourceParam = new QueryParam
    sourceParam.setField(new Field(new FieldInfo(RowkeyConstant.SINK_ID), new FieldValue(sinkId)))
    sourceParam.setCompareOp(CompareOp.EQUAL)
    //3.6設定**
    val sinkParam = new QueryParam
    sinkParam.setField(new Field(new FieldInfo(RowkeyConstant.SOURCE_ID), new FieldValue(sourceId)))
    sinkParam.setCompareOp(CompareOp.EQUAL)
    val queryParamList = util.Arrays.asList(systemIdParam, msgIdParam, startTimeParam, endTimeParam, sourceParam, sinkParam)
    queryDef.setListQueryParam(queryParamList)
    val startRowkey = decimalFormat.format(num) + queryDef.getStartRowKey(classOf[String])
    val endRowkey = decimalFormat.format(num) + queryDef.getStopRowKey(classOf[String])
    val filters = queryDef.getFilters(2, num, classOf[String])
    new Tuple4(tableName, startRowkey, endRowkey, filters)
  }

  /**
    * 進行hbase查詢
    *
    * @param taskParam
    * @param sc
    */
  def getHbaseQueryRDD(taskParam: (String, String, String, util.List[Filter]), sc: SparkContext): RDD[(ImmutableBytesWritable, Result)] = {
    val hbaseConf = HBaseConfiguration.create()
    hbaseConf.set(HbaseZookeeperConstant.HBASE_ZOOKEEPER_QUORUM, zookeeperHost)
    hbaseConf.set(HbaseZookeeperConstant.HBASE_ZOOKEEPER_PROPERTY_CLIENTPORT, zookeeperPort)
    hbaseConf.set(TableInputFormat.INPUT_TABLE, taskParam._1)
    val scan = new Scan()
    scan.setStartRow(Bytes.toBytes(taskParam._2))
    scan.setStopRow(Bytes.toBytes(taskParam._3))
    val filterList = new FilterList(FilterList.Operator.MUST_PASS_ALL, taskParam._4)
    scan.setFilter(filterList)
    hbaseConf.set(TableInputFormat.SCAN, convertScanToString(scan))
    val rs = sc.newAPIHadoopRDD(
      hbaseConf,
      classOf[TableInputFormat],
      classOf[org.apache.hadoop.hbase.io.ImmutableBytesWritable],
      classOf[org.apache.hadoop.hbase.client.Result])
    //todo 解析
    rs
//   rs.map(tuple2=>{
//     val result=tuple2._2
//     result.
//   })
  }

  private def convertScanToString(scan: Scan) = {
    val proto = ProtobufUtil.toScan(scan)
    Base64.encodeBytes(proto.toByteArray)
  }
}

spark讀取hbase(NewHadoopAPI 例子)

package cn.piesat.controllerimport java.text.{DecimalFormat, SimpleDateFormat}import java.utilimport java.util.concurrent.{CountDownLatch, Executors, Futur

Spark 讀取 Hbase 優化 --手動劃分 region 提高並行數

一. Hbase 的 region 我們先簡單介紹下 Hbase 的架構和 region ：從物理叢集的角度看，Hbase 叢集中，由一個 Hmaster 管理多個 HRegionServer，其中每個 HRegionServer 都對應一臺物理機器，一臺 HRegionServer 伺服器上又可

windows環境下使用Spark讀取HBase

windows環境下使用Spark讀取HBase 工具：IDEA 環境：jdk1.8，scala2.11 hbase：1.2-cdh5.16.1 spark：1.6-cdh5.16.1 hadoop：2.6.0-cdh5.16.1 以上元件都是用Cloudera Manager離線

Spark 讀取Hbase表資料並實現類似groupByKey操作

一、概述程式執行環境很重要，本次測試基於： hadoop-2.6.5 spark-1.6.2 hbase-1.2.4 zookeeper-3.4.6 jdk-1.8 廢話不多說了，直接上需求 Andy column=baseINFO:ag

Spark學習-SparkSQL--06-spark讀取HBase資料報異常java.io.NotSerializableException

1.準備工作，安裝好HABSE之後，執行Hbase shell create ‘表名稱’, ‘列名稱1’,’列名稱2’,’列名稱N’ create ‘表名稱’,’列族名稱’ 在hbase中列是可以動態新增的，只需要有個列族就可以了 create

[Spark][Streaming]Spark讀取網絡輸入的例子

trac pair keep exception clas zookeeper 包含 air blog Spark讀取網絡輸入的例子：參考如下的URL進行試驗 https://stackoverflow.com/questions/46739081/how-to-ge

spark從hbase讀取寫入資料

將RDD寫入hbase 注意點：依賴：將lib目錄下的hadoop開頭jar包、hbase開頭jar包新增至classpath 此外還有lib目錄下的：zookeeper-3.4.6.jar、metrics-core-2.2.0.jar（缺少會提示hbase Rpc

大資料Spark優化讀取Hbase--region 提高並行數過程詳細解析

一. Hbase 的 region 我們先簡單介紹下 Hbase 的架構和 region ：從物理叢集的角度看，Hbase 叢集中，由一個 Hmaster 管理多個 HRegionServer，其中每個 HRegionServer 都對應一臺物理機器，一臺 HRegionServer

[Spark][Streaming]Spark讀取網路輸入的例子

Spark讀取網路輸入的例子：參考如下的URL進行試驗 https://stackoverflow.com/questions/46739081/how-to-get-record-in-string-format-from-sockettextstreamhttp://www.cnblogs.com/

spark讀取kafka資料寫入hbase

package com.prince.demo.test import java.util.UUID import com.typesafe.config.{Config, ConfigFactory} import org.apache.hadoop.hbase.HBa

Spark如何讀取Hbase特定查詢的資料

最近工作需要使用到Spark操作Hbase，上篇文章已經寫了如何使用Spark讀寫Hbase全量表的資料做處理，但這次有所不同，這次的需求是Scan特定的Hbase的資料然後轉換成RDD做後續處理，簡單的使用Google查詢了一下，發現實現方式還是比較簡單的，用的還是Hb

spark操作讀取hbase例項

博主專案實踐中，經常需要用spark從hbase中讀取資料。其中，spark的版本為1.6，hbase的版本為0.98。現在記錄一下如何在spark中操作讀取hbase中的資料。對於這種操作型的需求，沒有什麼比直接上程式碼更簡單明瞭的了。so，show me

用sqoop抽取oracle 表到hbase的例子

connect oracl conn hba use add nbsp script imp sqoop import \-Doraoop.disabled=true \--connect jdbc:oracle:thin:@"(DESCRIPTION=(ADDRESS=(

文件讀取下載小例子

成功 and ont rec save tin dir() 文件讀取 last package sevlet3; import java.io.File; import java.io.FileOutputStream; import java.io.IOExcepti

IDEA中 Spark 讀Hbase 報錯處理：

ado htable client ets rim ogg expec zookeep ati SLF4J: Actual binding is of type [org.slf4j.impl.Log4jLoggerFactory] 17/11/19 14:25:57 E

HttpClient使用GET方式通過代理服務器讀取頁面的例子

輸出頭信息 static print host james ram tps cati import java.io.BufferedReader;import java.io.InputStreamReader;import org.apache.http.HttpEnt

spark 讀取mongodb失敗,報executor time out 和GC overhead limit exceeded 異常

資源 base for read 就是 conn context mon getc 代碼： import com.mongodb.spark.config.ReadConfig import com.mongodb.spark.sql._ val config = sql

大數據學習系列之七 ----- Hadoop+Spark+Zookeeper+HBase+Hive集

pat 修改配置文件防止聲明 mir rac detail jre_home true 引言在之前的大數據學習系列中，搭建了Hadoop+Spark+HBase+Hive 環境以及一些測試。其實要說的話，我開始學習大數據的時候，搭建的就是集群，並不是單機模式和

MapReduce-讀取HBase

run hdf read reduce 數據 use leo keyvalue AMM MapReduce讀取HBase數據代碼如下 package com.hbase.mapreduce; import java.io.IOException; import or

mongo-spark-讀取不同的庫資料和寫入不同的庫中

mongo-spark-讀取不同的庫資料和寫入不同的庫中 package com.example.app import com.mongodb.spark.config.{ReadConfig, WriteConfig} import com.mongodb.spark.sql._ object

spark讀取hbase(NewHadoopAPI 例子)

相關推薦