關於自定義sparkSQL數據源（Hbase）操作中遇到的坑

阿新 • • 發佈：2019-05-02

b- emp nfa == ted 遇到 cat port 一個數

技術分享圖片

自定義sparkSQL數據源的過程中，需要對sparkSQL表的schema和Hbase表的schema進行整合；

對於spark來說，要想自定義數據源，你就必須得實現這3個接口：

BaseRelation 代表了一個抽象的數據源。該數據源由一行行有著已知schema的數據組成（關系表）。
TableScan 用於掃描整張表，將數據返回成RDD[Row]。
RelationProvider 顧名思義，根據用戶提供的參數返回一個數據源（BaseRelation）。

所以，如果對接Hbase的話，就定義一個Hbase的relation

class DefaultSource extends 
 RelationProvider {
  def createRelation(sqlContext: SQLContext, parameters: Map[String, String]) = {
    HBaseRelation(parameters)(sqlContext)
  }
}

case class HBaseRelation(@transient val hbaseProps: Map[String,String])(@transient val sqlContext: SQLContext) extends BaseRelation with Serializable with TableScan{

  val hbaseTableName  
=  hbaseProps.getOrElse("hbase_table_name", sys.error("not valid schema"))
  val hbaseTableSchema =  hbaseProps.getOrElse("hbase_table_schema", sys.error("not valid schema"))
  val registerTableSchema = hbaseProps.getOrElse("sparksql_table_schema", sys.error("not valid schema"))
  val rowRange = hbaseProps.getOrElse("row_range", "->")
   
//get star row and end row
  val range = rowRange.split("->",-1)
  val startRowKey = range(0).trim
  val endRowKey = range(1).trim
  val tempHBaseFields = extractHBaseSchema(hbaseTableSchema) //do not use this, a temp field
  val registerTableFields = extractRegisterSchema(registerTableSchema)
  val tempFieldRelation = tableSchemaFieldMapping(tempHBaseFields,registerTableFields)
  val hbaseTableFields = feedTypes(tempFieldRelation)
  val fieldsRelations =  tableSchemaFieldMapping(hbaseTableFields,registerTableFields)
  val queryColumns =  getQueryTargetCloumns(hbaseTableFields)
  def feedTypes( mapping: Map[HBaseSchemaField, RegisteredSchemaField]) :  Array[HBaseSchemaField] = {
    val hbaseFields = mapping.map{
      case (k,v) =>
        val field = k.copy(fieldType=v.fieldType)
        field
    }
    hbaseFields.toArray
  }




  def isRowKey(field: HBaseSchemaField) : Boolean = {
    val cfColArray = field.fieldName.split(":",-1)
    val cfName = cfColArray(0)
    val colName =  cfColArray(1)
    if(cfName=="" && colName=="key") true else false
  }

  
  def getQueryTargetCloumns(hbaseTableFields: Array[HBaseSchemaField]): String = {
    var str = ArrayBuffer[String]()
    hbaseTableFields.foreach{ field=>
      if(!isRowKey(field)) {
        str.append(field.fieldName)
      }
    }
    println(str.mkString(" "))
    str.mkString(" ")
  }
  lazy val schema = {
    val fields = hbaseTableFields.map{ field=>
      val name  = fieldsRelations.getOrElse(field, sys.error("table schema is not match the definition.")).fieldName
      val relatedType =  field.fieldType match  {
        case "String" =>
          SchemaType(StringType,nullable = false)
        case "Int" =>
          SchemaType(IntegerType,nullable = false)
        case "Long" =>
          SchemaType(LongType,nullable = false)
        case "Double" =>
          SchemaType(DoubleType,nullable = false)

      }
      StructField(name,relatedType.dataType,relatedType.nullable)
    }
    StructType(fields)
  }
  

  def tableSchemaFieldMapping( externalHBaseTable: Array[HBaseSchemaField],  registerTable : Array[RegisteredSchemaField]): Map[HBaseSchemaField, RegisteredSchemaField] = {
    if(externalHBaseTable.length != registerTable.length) sys.error("columns size not match in definition!")
    val rs: Array[(HBaseSchemaField, RegisteredSchemaField)] = externalHBaseTable.zip(registerTable)
    rs.toMap
  }


  /**
    * spark sql schema will be register
    *   registerTableSchema   ‘(rowkey string, value string, column_a string)‘
    */
  def extractRegisterSchema(registerTableSchema: String) : Array[RegisteredSchemaField] = {
    val fieldsStr = registerTableSchema.trim.drop(1).dropRight(1)
    val fieldsArray = fieldsStr.split(",").map(_.trim)//sorted
    fieldsArray.map{ fildString =>
      val splitedField = fildString.split("\\s+", -1)//sorted
      RegisteredSchemaField(splitedField(0), splitedField(1))
    }
  }

  
  def extractHBaseSchema(externalTableSchema: String) : Array[HBaseSchemaField] = {
    val fieldsStr = externalTableSchema.trim.drop(1).dropRight(1)
    val fieldsArray = fieldsStr.split(",").map(_.trim)
    fieldsArray.map(fildString => HBaseSchemaField(fildString,""))
  }

  // By making this a lazy val we keep the RDD around, amortizing the cost of locating splits.
  lazy val buildScan = {

    val hbaseConf = HBaseConfiguration.create()
    hbaseConf.set("hbase.zookeeper.quorum", GlobalConfigUtils.hbaseQuorem)
    hbaseConf.set(TableInputFormat.INPUT_TABLE, hbaseTableName)
    hbaseConf.set(TableInputFormat.SCAN_COLUMNS, queryColumns)
    hbaseConf.set(TableInputFormat.SCAN_ROW_START, startRowKey)
    hbaseConf.set(TableInputFormat.SCAN_ROW_STOP, endRowKey)

    val hbaseRdd = sqlContext.sparkContext.newAPIHadoopRDD(
      hbaseConf,
      classOf[org.apache.hadoop.hbase.mapreduce.TableInputFormat],
      classOf[org.apache.hadoop.hbase.io.ImmutableBytesWritable],
      classOf[org.apache.hadoop.hbase.client.Result]
    )

    val rs = hbaseRdd.map(tuple => tuple._2).map(result => {
      var values = new ArrayBuffer[Any]()
      hbaseTableFields.foreach{field=>
        values += Resolver.resolve(field,result)
      }
      Row.fromSeq(values.toSeq)
    })
    rs
  }

  private case class SchemaType(dataType: DataType, nullable: Boolean)
}

HBaseRelation

Hbase的schema：

package object hbase {

  abstract class SchemaField extends Serializable

  case class RegisteredSchemaField(fieldName: String, fieldType: String)  extends  SchemaField  with Serializable

  case class HBaseSchemaField(fieldName: String, fieldType: String)  extends  SchemaField  with Serializable

  case class Parameter(name: String)
  //sparksql_table_schema
  protected  val SPARK_SQL_TABLE_SCHEMA = Parameter("sparksql_table_schema")
  protected  val HBASE_TABLE_NAME = Parameter("hbase_table_name")
  protected  val HBASE_TABLE_SCHEMA = Parameter("hbase_table_schema")
  protected  val ROW_RANGE = Parameter("row_range")

  /**
    * Adds a method, `hbaseTable`, to SQLContext that allows reading data stored in hbase table.
    */
  implicit class HBaseContext(sqlContext: SQLContext) {
    def hbaseTable(sparksqlTableSchema: String, hbaseTableName: String, hbaseTableSchema: String, rowRange: String = "->") = {
      var params = new HashMap[String, String]
      params += ( SPARK_SQL_TABLE_SCHEMA.name -> sparksqlTableSchema)
      params += ( HBASE_TABLE_NAME.name -> hbaseTableName)
      params += ( HBASE_TABLE_SCHEMA.name -> hbaseTableSchema)
      //get star row and end row
      params += ( ROW_RANGE.name -> rowRange)
      sqlContext.baseRelationToDataFrame(HBaseRelation(params)(sqlContext))
    }
  }
}

View Code

當然了，其中schema的數據類型也得處理下：

object Resolver extends  Serializable {
  def resolve (hbaseField: HBaseSchemaField, result: Result ): Any = {
    val cfColArray = hbaseField.fieldName.split(":",-1)
    val cfName = cfColArray(0)
    val colName =  cfColArray(1)
    var fieldRs: Any = null
    //resolve row key otherwise resolve column
    if(cfName=="" && colName=="key") {
      fieldRs = resolveRowKey(result, hbaseField.fieldType)
    } else {
      fieldRs =  resolveColumn(result, cfName, colName,hbaseField.fieldType)
    }
    fieldRs
  }

  def resolveRowKey (result: Result, resultType: String): Any = {
    val rowkey = resultType match {
      case "String" =>
        result.getRow.map(_.toChar).mkString
      case "Int" =>
        result  .getRow.map(_.toChar).mkString.toInt
      case "Long" =>
        result.getRow.map(_.toChar).mkString.toLong
      case "Float" =>
        result.getRow.map(_.toChar).mkString.toLong
      case "Double" =>
        result.getRow.map(_.toChar).mkString.toDouble
    }
    rowkey
  }

  def resolveColumn (result: Result, columnFamily: String, columnName: String, resultType: String): Any = {

    val column = result.containsColumn(columnFamily.getBytes, columnName.getBytes) match{
      case true =>{
        resultType match {
          case "String" =>
            Bytes.toString(result.getValue(columnFamily.getBytes,columnName.getBytes))
          case "Int" =>
            Bytes.toInt(result.getValue(columnFamily.getBytes,columnName.getBytes))
          case "Long" =>
            Bytes.toLong(result.getValue(columnFamily.getBytes,columnName.getBytes))
          case "Float" =>
            Bytes.toFloat(result.getValue(columnFamily.getBytes,columnName.getBytes))
          case "Double" =>
            Bytes.toDouble(result.getValue(columnFamily.getBytes,columnName.getBytes))

        }
      }
      case _ => {
        resultType match {
          case "String" =>
            ""
          case "Int" =>
            0
          case "Long" =>
            0
          case "Double" =>
            0.0
        }
      }
    }
    column
  }
}

Resolver

做個測試：

object CustomHbaseTest {
  def main(args: Array[String]): Unit = {
    val startTime = System.currentTimeMillis()
    val sparkConf: SparkConf = new SparkConf()
      .setMaster("local[6]")
      .setAppName("query")
      .set("spark.worker.timeout" , GlobalConfigUtils.sparkWorkTimeout)
      .set("spark.cores.max" , GlobalConfigUtils.sparkMaxCores)
      .set("spark.rpc.askTimeout" , GlobalConfigUtils.sparkRpcTimeout)
      .set("spark.task.macFailures" , GlobalConfigUtils.sparkTaskMaxFailures)
      .set("spark.speculation" , GlobalConfigUtils.sparkSpeculation)
      .set("spark.driver.allowMutilpleContext" , GlobalConfigUtils.sparkAllowMutilpleContext)
      .set("spark.serializer" , GlobalConfigUtils.sparkSerializer)
      .set("spark.buffer.pageSize" , GlobalConfigUtils.sparkBuferSize)
      .set("spark.serializer", "org.apache.spark.serializer.KryoSerializer")
      .set("spark.driver.host", "localhost")
    val sparkSession: SparkSession = SparkSession.builder()
      .config(sparkConf)
      .enableHiveSupport() //開啟支持hive
      .getOrCreate()
    var hbasetable = sparkSession
      .read
      .format("com.df.test_custom.customSource")
      .options(
        Map(
          "sparksql_table_schema" -> "(id String, create_time String , open_lng String , open_lat String , begin_address_code String , charge_mileage String , city_name String , vehicle_license String)",
          "hbase_table_name" -> "order_info",
          "hbase_table_schema" -> "(MM:id , MM:create_time , MM:open_lng , MM:open_lat , MM:begin_address_code , MM:charge_mileage , MM:city_name  , MM:vehicle_license)"
    )).load()

    hbasetable.createOrReplaceTempView("orderData")

    sparkSession.sql(
      """
        |select * from orderData
      """.stripMargin).show()
    val endTime = System.currentTimeMillis()
    println(s"花費時間：${endTime - startTime}")
  }
}

test

所有代碼整合完畢之後，跑通了，但是確發現查詢出來的數據和具體的列值對不上

比如：

var hbasetable = sparkSession
      .read
      .format("com.df.test_custom.customSource")
      .options(
        Map(
          "sparksql_table_schema" -> "(id String, create_time String , open_lng String , open_lat String , begin_address_code String , charge_mileage String , city_name String , vehicle_license String)",
          "hbase_table_name" -> "order_info",
          "hbase_table_schema" -> "(MM:id , MM:create_time , MM:open_lng , MM:open_lat , MM:begin_address_code , MM:charge_mileage , MM:city_name  , MM:vehicle_license)"
    )).load()

我指定的sparkSQL表的schema和Hbase的schema如上面的代碼；

但是我查詢出來的數據是這樣的：

hbasetable.createOrReplaceTempView("orderData")

    sparkSession.sql(
      """
        |select * from orderData
      """.stripMargin).show()

技術分享圖片

從上面的圖可以看到，其實好多列的順序對不上了！

問題所在的原因：

def tableSchemaFieldMapping( externalHBaseTable: Array[HBaseSchemaField],  registerTable : Array[RegisteredSchemaField]): Map[HBaseSchemaField, RegisteredSchemaField] = {
    if(externalHBaseTable.length != registerTable.length) sys.error("columns size not match in definition!")
    val rs: Array[(HBaseSchemaField, RegisteredSchemaField)] = externalHBaseTable.zip(registerTable)

    rs.toMap
  }

可以看到，最後是----------> rs.toMap

您註意了，scala中的這個map是不能保證順序的，舉個栗子：

object TestMap {
  def main(args: Array[String]): Unit = {
    val arr1 = Array("java" , "scla" , "javascripe" , "ii" , "wqe" , "qaz")
    val arr2 = Array("java" , "scla" , "javascripe" , "ii" , "wqe" , "qaz")
    val toMap: Map[String, String] = arr1.zip(arr2).toMap
    for((k,v) <- toMap){
      println(s"k :${k} , v：${v}")
    }
  }
}

結果是這樣的：

技術分享圖片

明顯發現，這個結果沒按照最初zip後的順序來，問題其實就是在toMap這裏

解決：

在jdk1.5之後，給出了一個可以保持插入順序強相關的Map，就是：LinkedHashMap

所以說，解決方案就是，將scala中的Map轉成LinkedHashMap

1）：修改feedTypes

  def feedTypes( mapping: util.LinkedHashMap[HBaseSchemaField, RegisteredSchemaField]) :  Array[HBaseSchemaField] = {
    val hbaseFields = mapping.map{
      case (k,v) =>
        val field = k.copy(fieldType=v.fieldType)
        field
    }
    hbaseFields.toArray
  }

//  def feedTypes( mapping: Map[HBaseSchemaField, RegisteredSchemaField]) :  Array[HBaseSchemaField] = {
//    val hbaseFields = mapping.map{
//      case (k,v) =>
//        val field = k.copy(fieldType=v.fieldType)
//        field
//    }
//    hbaseFields.toArray
//  }

2）：修改tableSchemaFieldMapping

  def tableSchemaFieldMapping( externalHBaseTable: Array[HBaseSchemaField],  registerTable : Array[RegisteredSchemaField]): util.LinkedHashMap[HBaseSchemaField, RegisteredSchemaField] = {
    if(externalHBaseTable.length != registerTable.length) sys.error("columns size not match in definition!")
    val rs: Array[(HBaseSchemaField, RegisteredSchemaField)] = externalHBaseTable.zip(registerTable)
    val linkedHashMap = new util.LinkedHashMap[HBaseSchemaField, RegisteredSchemaField]()
    for(arr <- rs){
      linkedHashMap.put(arr._1 , arr._2)
    }
    linkedHashMap
  }

//  def tableSchemaFieldMapping( externalHBaseTable: Array[HBaseSchemaField],  registerTable : Array[RegisteredSchemaField]): Map[HBaseSchemaField, RegisteredSchemaField] = {
//    if(externalHBaseTable.length != registerTable.length) sys.error("columns size not match in definition!")
//    val rs: Array[(HBaseSchemaField, RegisteredSchemaField)] = externalHBaseTable.zip(registerTable)
//    rs.toMap
//  }

然後在跑test代碼：結果

技術分享圖片

跑通！！！

PS：直接賦值我的代碼就能用了

另外：

var hbasetable = sparkSession
      .read
      .format("com.df.test_custom.customSource")
      .options(
        Map(
          "sparksql_table_schema" -> "(id String, create_time String , open_lng String , open_lat String , begin_address_code String , charge_mileage String , city_name String , vehicle_license String)",
          "hbase_table_name" -> "order_info",
          "hbase_table_schema" -> "(MM:id , MM:create_time , MM:open_lng , MM:open_lat , MM:begin_address_code , MM:charge_mileage , MM:city_name  , MM:vehicle_license)"
    )).load()

sparksql_table_schema和hbase_table_schema 順序必須一樣

關於自定義sparkSQL數據源（Hbase）操作中遇到的坑

b- emp nfa == ted 遇到 cat port 一個數自定義sparkSQL數據源的過程中，需要對sparkSQL表的schema和Hbase表的schema進行整合；對於spark來說，要想自定義數據源，你就必須得實現這3個接口： Bas

配置tomcat8數據源（采用局部數據源方式）

字符串 height xhtml .com 源配置編號 .org 系統修改　　tomcat提供兩種數據源配置方式，全局和局部。全局的話對於所有web應用都生效，局部只對於配置的某一個web生效。　　步驟：　　1.將mysql的jdbc驅動復制到tomcat的lib

Spring Boot 動態數據源（Spring 註解數據源）

sample maximum 多個 prefix password auth 映射 boot 發出本文實現案例場景：某系統除了需要從自己的主要數據庫上讀取和管理數據外，還有一部分業務涉及到其他多個數據庫，要求可以在任何方法上可以靈活指定具體要操作的

大數據筆記（十三）——常見的NoSQL數據庫之HBase數據庫（A）

list tar regions info max script 參數 .tar.gz ges 一.HBase的表結構和體系結構　　1.HBase的表結構　　把所有的數據存到一張表中。通過犧牲表空間，換取良好的性能。　　HBase的列以列族的形式存在。每一個列族包括若

[轉]Spark 踩坑記：數據庫（Hbase+Mysql）

cep 直接策略 https rds 但是更新 base ID https://cloud.tencent.com/developer/article/1004820 Spark 踩坑記：數據庫（Hbase+Mysql）前言在使用Spark Streaming的過程

JNDI數據源（在Tomcat下配置JNDI多數據源實例）

更新 urn post sele define 網上 def pack finally 一，添加數據庫驅動包加入classpath。這裏我用到了oracle和mysql。所以由兩個jar包：ojdbc14.jar和mysql-connector-java-5.1.13-b

SparkSQL--數據源Parquet的加載和保存

and ast master api mes () asp -s col 一、通用的load和save操作對於Spark SQL的DataFrame來說，無論是從什麽數據源創建出來的DataFrame，都有一些共同的load和save操作。load操作主要用於加載數據，創

MyBatis源碼解析之數據源（含數據庫連接池簡析）

概述 myba 源碼 conn java 初始對象狀態 lis 為什麽一.概述：常見的數據源組件都實現了javax.sql.DataSource接口； MyBatis不但要能集成第三方的數據源組件，自身也提供了數據源的實現；一般情況下，數據源的初始化過程參數較多，比

Kettle批量操作流程使用（一）---單個數據源多表批量操作

最近在工作上用到了kettle，目前這個開源的ETl工具相對來說比較火，用做資料抽取清洗工作很方便也很快捷。當然也還有不少的問題，比如使用過程中會發生閃退（測試了幾個版本都存在），還有建好的Job和Transfer儲存檔案，然後再次開啟的時候都是空白。拋開這些問題暫時

PIE SDK加載自定義服務數據

自定義服務 col orm token play ice width ssi body 1.功能簡介　　自定義服務數據，將符合要求的矢量數據和柵格數據集等數據以服務的方式發布，將數據存儲在某服務器中，在有網絡的情況下可以根據URL就可以訪問，比較常見的服務數據類型的有A

數據結構（二）:線性表的使用原則以及鏈表的應用-稀疏矩陣的三元組表示

查找 triple 表的操作結構循環鏈表循環大於 ria 幫助上一篇博文中主要總結線性表中的鏈式存儲結構實現，比方單向鏈表、循環鏈表。還通過對照鏈表和順序表的多項式的存儲表示。說明鏈表的長處。能夠參看上篇博文http://blog.csdn.net/lg125

【數據庫】MySQL數據庫（二）

關閉數據庫 dos命令 medium 數據庫密碼 gin mysql tables 日期導出數據一、數據庫文件的導出 1.在DOS命令行下導出數據庫(帶數據) mysqldump -u root -p 數據庫名 > E:\wamp\www\lamp175\lam

【數據庫】MySQL數據庫（三）

沒有特殊進行主鍵索引 rst ble 刪除索引可能一、MySQL當中的索引：數組當中我們見過索引；它的好處就是能夠快速的通過下標、索引將一個信息查到；或者說能夠快速的定位到一個信息； 1.MySQL中的索引是什麽？它是將我們表中具有索引的那個字段，

【數據庫】MySQL數據庫（一）

管理系統 ins 我的電腦使用語句命令行 mar alt rac 一、MySQL數據庫系統 MySQL數據庫系統就是用來對數據庫、數據的一些管理二、數據庫系統 1.數據庫就是用來存儲各種數據的 2.數據庫管理系統就是用來管理各種數據庫的數據的一個系統

burpsuite攔截https數據包（Firefox）

點擊 you 都是 -i 重啟 .com -128 custom sta 1.配置瀏覽器對https也使用代理 http和https兩都是分開的，對http使用了代理並不代理對https也使用了代理，要配置瀏覽器讓其對https也使用同樣的代理。 2.將證書導入瀏

數據結構（二）線性表——鏈表

erro urn 找到頭結點 tee 存在結構 strong 函數通常情況下，鏈接可分為單鏈表、雙向鏈表和循環鏈表三種常用類型。一、單鏈表基本操作的實現使用鏈式存儲結構來實現的線性表稱為鏈表。首元結點、頭結點、頭指針、空指針。 1.單鏈表的類型定義 typede

4.非關系型數據庫（Nosql）之mongodb：普通索引，唯一索引

log 索引 xpl sys watermark lang mon style gravity 一：普通索引 1創建一個新的數據庫 > use toto; switched to db toto

使用excel進行數據挖掘（6）---- 預測

max 表示 jsb cast tail 用戶 roman order 報表在配置環境後，能夠使用excel進行數據挖掘。環境配置問題可參閱： http://blog.csdn.net/xinxing__8185/article/details/4644543

python pandas模塊,nba數據處理（1）

excel inpu con num 表結構固定 sql 面向列 lines pandas提供了使我們能夠快速便捷地處理結構化數據的大量數據結構和函數。pandas兼具Numpy高性能的數組計算功能以及電子表格和關系型數據（如SQL）靈活的數據處理能力。它提供了復雜精細的

數據結構（五）串

src www 影響 algo res aaa edi note XML 定義串的存儲結構順序存儲結構當長度超過了預分配的空間，需要重新動態分配新的空間鏈式存儲結構一個節點對應一個字符會造成資源浪費，所以一個節點可以放多個字符（相當於鏈式的每個節點內

關於自定義sparkSQL數據源（Hbase）操作中遇到的坑

解決：

相關推薦