Hortonworks的開源框架SHC的使用（二）

阿新 • • 發佈：2018-12-10

shc測試環境的搭建參考：

spark讀寫HBase之使用hortonworks的開源框架shc（一）：原始碼編譯以及測試工程建立

讀寫HBase需要兩個核心的元素：

使用者描述資料結構的schema字串
與schema字串相對應的實體類

1. 定義schema字串

object Catalog {

  val schema = s"""{
                  |   "table":{"namespace":"default", "name":"test1", "tableCoder":"PrimitiveType"},
                  |   "rowkey":"key",
                  |   "columns":{
                  |       "col0":{"cf":"rowkey", "col":"key", "type":"string"},
                  |       "col1":{"cf":"cf1", "col":"col1", "type":"boolean"},
                  |       "col2":{"cf":"cf2", "col":"col2", "type":"double"},
                  |       "col3":{"cf":"cf3", "col":"col3", "type":"float"},
                  |       "col4":{"cf":"cf4", "col":"col4", "type":"int"},
                  |       "col5":{"cf":"cf5", "col":"col5", "type":"bigint"},
                  |       "col6":{"cf":"cf6", "col":"col6", "type":"smallint"},
                  |       "col7":{"cf":"cf7", "col":"col7", "type":"tinyint"},
                  |       "col8":{"cf":"cf8", "col":"col8", "type":"byte"}
                  |   }
                  |}""".stripMargin

}

schema字串說明：

2. 定義與schema字串對應的實體類

case class HBaseRecord(
      col0: String,  // sql: string
      col1: Boolean, // sql: boolean
      col2: Double, // sql: double
      col3: Float, // sql: float
      col4: Int, // sql: int
      col5: Long, // sql: bigint
      col6: Short, // sql: smallint
      col7: Byte, // sql: tinyint
      col8: Array[Byte]) // sql: byte

  object HBaseRecord {
    def apply(i: Int): HBaseRecord = {
      HBaseRecord(i + "",
        i % 2 == 0,
        i.toDouble,
        i.toFloat,
        i,
        i.toLong,
        i.toShort,
        i.toByte,
        (i + "").getBytes("UTF-8"))
    }
  }

3. 寫資料到HBase表完整程式碼

import org.apache.spark.sql.SparkSession
import org.apache.spark.sql.execution.datasources.hbase.HBaseTableCatalog

object WriteHBase {

  def main(args: Array[String]): Unit = {

    val spark = SparkSession.builder().appName("WriteHBase").getOrCreate()
    val sc = spark.sparkContext
    val sqlContext = spark.sqlContext
    import sqlContext.implicits._

    // 模擬一批資料
    val data = (0 to 9).map(HBaseRecord(_))

    // 寫資料
    sc.parallelize(data)
      .toDF
      .write
      .options(Map(HBaseTableCatalog.tableCatalog -> Catalog.schema, HBaseTableCatalog.newTable -> "5"))
      .format("org.apache.spark.sql.execution.datasources.hbase")
      .save()
    spark.stop()
  }
}

說明：

Map(HBaseTableCatalog.tableCatalog -> Catalog.schema, HBaseTableCatalog.newTable -> "5")

這個程式碼意味著HBase表是不存在的，也就是我們在schema字串中定義的"test1"這個表不存在，程式幫我們自動建立，5是region的個數，如果你提前建立好了表，那麼這裡的程式碼是這樣的：

Map(HBaseTableCatalog.tableCatalog -> Catalog.schema)

當表存在的時候，資料會追加進去。

執行完以上程式後，檢查一下hbase表中的內容：

hbase(main):003:0> scan 'test1'
ROW                                         COLUMN+CELL                                                                                                                 
 0                                          column=cf1:col1, timestamp=1534732543615, value=\xFF                                                                        
 0                                          column=cf2:col2, timestamp=1534732543615, value=\x00\x00\x00\x00\x00\x00\x00\x00                                            
 0                                          column=cf3:col3, timestamp=1534732543615, value=\x00\x00\x00\x00                                                            
 0                                          column=cf4:col4, timestamp=1534732543615, value=\x00\x00\x00\x00                                                            
 0                                          column=cf5:col5, timestamp=1534732543615, value=\x00\x00\x00\x00\x00\x00\x00\x00                                            
 0                                          column=cf6:col6, timestamp=1534732543615, value=\x00\x00                                                                    
 0                                          column=cf7:col7, timestamp=1534732543615, value=\x00                                                                        
 0                                          column=cf8:col8, timestamp=1534732543615, value=0                                                                           
 1                                          column=cf1:col1, timestamp=1534732543615, value=\x00                                                                        
 1                                          column=cf2:col2, timestamp=1534732543615, value=?\xF0\x00\x00\x00\x00\x00\x00
 ......

說明：程式本地執行會報以下錯誤

java.lang.IllegalArgumentException: Pathname /C:/Users/bonc/AppData/Local/Temp/spark-9fa1e56c-ce87-43e8-a936-f947b62e1af5/outputDataset/.spark-staging-5 
from C:/Users/bonc/AppData/Local/Temp/spark-9fa1e56c-ce87-43e8-a936-f947b62e1af5/outputDataset/.spark-staging-5 is not a valid DFS filename.

這是因為本地執行把臨時資料夾建立在本地，而刪除臨時資料夾時認為這個資料夾是一個HDFS的路徑，所以報錯，這個錯誤不影響讀寫資料，當在叢集上跑這個程式就不會報錯

4. 從HBase表讀資料完整程式碼

import org.apache.spark.sql.{DataFrame, SparkSession}
import org.apache.spark.sql.execution.datasources.hbase.HBaseTableCatalog

object ReadHBase {

  def main(args: Array[String]): Unit = {

    val spark = SparkSession.builder().appName("ReadHBase").master("local").getOrCreate()
    val sc = spark.sparkContext
    val sqlContext = spark.sqlContext
    import sqlContext.implicits._

    val df: DataFrame = sqlContext
      .read
      .options(Map(HBaseTableCatalog.tableCatalog -> Catalog.schema))
      .format("org.apache.spark.sql.execution.datasources.hbase")
      .load()

    df.createOrReplaceTempView("test1")

    spark.sql("select * from test1").show()

    spark.stop()
  }
}

執行結果如下：

+----+-----+----+----+----+----+----+----+----+
|col0| col1|col2|col3|col4|col5|col6|col7|col8|
+----+-----+----+----+----+----+----+----+----+
|   0| true| 0.0| 0.0|   0|   0|   0|   0|  48|
|   1|false| 1.0| 1.0|   1|   1|   1|   1|  49|
|   2| true| 2.0| 2.0|   2|   2|   2|   2|  50|
|   3|false| 3.0| 3.0|   3|   3|   3|   3|  51|
|   4| true| 4.0| 4.0|   4|   4|   4|   4|  52|
|   5|false| 5.0| 5.0|   5|   5|   5|   5|  53|
|   6| true| 6.0| 6.0|   6|   6|   6|   6|  54|
|   7|false| 7.0| 7.0|   7|   7|   7|   7|  55|
|   8| true| 8.0| 8.0|   8|   8|   8|   8|  56|
|   9|false| 9.0| 9.0|   9|   9|   9|   9|  57|
+----+-----+----+----+----+----+----+----+----+

轉自：CoderJed

開發一款開源爬蟲框架系列（二）：設計爬蟲架構

既然是構建分散式爬蟲架構，分散式說明爬蟲能在多臺機器同時執行，所以一定是多客戶端的，客戶端主要用於下載網頁，內容會放入佇列，多客戶端就有可能執行在不同的作業系統不同的語言環境，所以我們讓它暫時支援java和scala兩種依賴jvm的語言，不用區分平臺。提到客戶端也一定意味著有服務端的存在，服務端主要用於解

Dubbo服務框架解析（二）

換行符 spi track .net int apt thread exce -i 本節介紹dubbo-common，dubbo-common是公共邏輯模塊，包含Util類、通用模型，是其他模塊的基礎。擴展機制 SPI SPI是擴展點的註解。

RPC框架研究（二）Hadoop源代碼-1

trac 挑戰 b2c ott 技術分享 style dsm mod spa 報名了阿裏中間件性能大賽，我來說是一個全新的挑戰。一切從空白學起，比賽的過程也是學習的過程是的。想讓自己學好。給自己報一個比賽吧~ 就像當初學圍棋，也是報了圍棋比賽，為

Python web框架 Tornado（二）異步非阻塞

.py thread bind log class multiple fin ini lex 異步非阻塞阻塞式：(適用於所有框架，Django,Flask,Tornado,Bottle) 　　一個請求到來未處理完成，後續一直等待　　解決方案：多線程，多進程異步

HBase框架基礎（二）

alt 這一 tro sca staf 創建表 ips 2.0 大數 * HBase框架基礎（二）上一節我們了解了HBase的架構原理和模塊組成，這一節我們先來聊一聊HBase的讀寫數據的過程。 * HBase的讀寫流程及3個機制 HBase的讀數據流程： 1、HReg

Hive框架基礎（二）

stat osi 文件拷貝 netstat 內容 inner modules date 分享 * Hive框架基礎（二）我們繼續討論hive框架 * Hive的外部表與內部表內部表：hive默認創建的是內部表例如： create table table001 (n

Java SpringMVC框架學習（二）httpServeltRequest和Model傳值的區別

urn ont ppi mode array style att 區別 () 為什麽大多程序在controller中給jsp傳值時使用model.addAttribute()而不使用httpServeletRequest.setAttribute()？事實上model數

Tornado框架簡介（二）

IT ali cati tput 靜態特定 with 命名方式 method --------------------Application--------------------1、settings1、debug=True：，設置tornado是否工作在調試模式，默認為

【從零開始搭建自己的.NET Core Api框架】（二）搭建項目的整體架構

config 七層數據 TP 暫時整體架構比較架構其他本來打算將搭建項目架構和集成SqlSugar放在一起講的，但是感覺東西有點多，還是分成兩章吧~ 這一章講搭建項目的整體架構，這裏先把搭建完成後的最終效果放出來，然後再逐個解釋每層的作用。可以看到這裏一

Scrapy框架學習（二）Scrapy入門

接下來以爬取quote.toscrape.com為例完成一遍Scrapy的抓取流程。首先建立一個Scrapy專案。開啟命令列，輸入以下命令： scrapy startproject projectname 即可在當前位置建立一個Scrapy專案。我們建立一個名為tutorial的專案： scrapy

unity遊戲開發之ULua框架介紹（二）

1.SimpleFramework框架配置檔案（1）AppConst 檔案在AppConst.cs檔案中配置了很多專案開發過程中，需要使用到的“公共常量資訊”。指令碼內的常量都有中文備註。所在位置是：Scripts/ConstDefine/AppConst.cs

網路框架比較（二）

自己重新整理了一份網路框架比較，對比了多個框架。目前使用的比較多的volley、okhttp、retrofit，從官網找了資料，根據demo和總結，最終形成了表格。專案中volley部分機型、特定網路

python3 django框架開發（二）連線資料庫，建表

轉載請註明：https://blog.csdn.net/weixin_40490238/article/details/84573309 安裝pymysql包，點選settings 查詢pymysql，點選install package 開啟settings.p

JAVA類集框架筆記（二）

三、集合的輸出在類集中提供了以下4種常見的輸出方式：（1）Iterator : 迭代輸出，是使用最多的輸出方式（2）

laravel框架學習（二）解決MySQL5.7以下資料無法遷移的方法

報錯提示不支援提供新的utf8字符集第一種方法：修改字符集修改字符集： 'charset' => 'utf8', 'collation' => 'utf8_unicode_ci', 第二種方法：如果不修改字符集修改下預設字串

SSH框架學習（二）——引入框架所需配置檔案

SSH框架學習（二）——引入框架所需配置檔案 struts2配置檔案 hibernate配置檔案 spring配置檔案 struts2配置檔案 struts2的配置檔案有： 1、web.xml：配置核心過濾器 2、struts.xml：

Spring框架基礎（二）——依賴注入DI/IOC

一，手動進行值注入（bean）  <bean name="bookinfo" class="com.lanou.fuxi.domain.Bookinfo"&

Spring框架知識點（二）

目錄： 1.spring的bean管理（註解）（1）使用註解建立物件（2）使用註解注入屬性（3）Xml和註解方式混合使用 2.AOP （1）Aop概述（2）Aop底層原理（3）Aop操作相關術語 3.spring的aop操作（基於aspectj的xml

萌框架vue（二）——系統指令v-bind

我去飯館吃飯，指著選單上的地三鮮說：“我要第2個。” 服務員有點蒙；“西紅柿炒雞蛋？” 我：“第2個，地三鮮。” 服務員：“那是第3個吧。。。” 我：“我是程式猿。” 服務員：“那應該是第10個。” 我… 0、系統指令v-bind v-bind 作用：可以給元素動態繫結屬性

Flask框架基礎（二）

##1 程式的基本結構 ###1.1初始化所有Flask 程式都必須建立一個程式例項。Web 伺服器使用一種名為Web 伺服器閘道器介面（Web Server Gateway Interface，WSGI）的協議，把接收自客戶端的所有請求都轉交給這個物件處理。