spark操作讀取hbase例項

阿新 • • 發佈：2019-02-08

博主專案實踐中，經常需要用spark從hbase中讀取資料。其中，spark的版本為1.6，hbase的版本為0.98。現在記錄一下如何在spark中操作讀取hbase中的資料。
對於這種操作型的需求，沒有什麼比直接上程式碼更簡單明瞭的了。so，show me the code!

object Demo extends Logging{

  val CF_FOR_FAMILY_USER = Bytes.toBytes("U");
  val CF_FOR_FAMILY_DEVICE = Bytes.toBytes("D")
  val QF_FOR_MODEL = Bytes.toBytes("model" 
)
  val HBASE_CLUSTER = "hbase://xxx/"
  val TABLE_NAME = "xxx";
  val HBASE_TABLE = HBASE_CLUSTER + TABLE_NAME

  def genData(sc:SparkContext) = {
    //20161229的資料,rowkey的設計為9999-yyyyMMdd
    val filter_of_1229 = new RowFilter(CompareFilter.CompareOp.EQUAL, new SubstringComparator("79838770"))
    //得到qf為w:00-23的資料 

    val filter_of_qf = new QualifierFilter(CompareFilter.CompareOp.EQUAL,new SubstringComparator("w"))

    val all_filters = new util.ArrayList[Filter]()
    all_filters.add(filter_of_1229)
    all_filters.add(filter_of_qf)

    //hbase多個過濾器
    val filterList = new FilterList(all_filters)

    val scan = new 
 Scan().addFamily(CF_FOR_FAMILY_USER)
    scan.setFilter(filterList)
    scan.setCaching(1000)
    scan.setCacheBlocks(false)

    val conf = HBaseConfiguration.create()
    conf.set(TableInputFormat.INPUT_TABLE,HBASE_TABLE )
    conf.set(TableInputFormat.SCAN, Base64.encodeBytes(ProtobufUtil.toScan(scan).toByteArray()))
       sc.newAPIHadoopRDD(conf,classOf[TableInputFormat],classOf[ImmutableBytesWritable],classOf[Result])
    //後面是針對hbase查詢結果的具體業務邏輯
    .map()
    ...

  def main(args: Array[String]): Unit = {
    val Array(output_path) = args

    val sparkConf = new SparkConf().setAppName("demo")
    sparkConf.set("spark.serializer", "org.apache.spark.serializer.KryoSerializer")
    val sc = new SparkContext(sparkConf)

    genUuidWifi(sc).saveAsTextFile(output_path)
    sc.stop()
  }
}

需要注意的一個小點就是如果hbase裡有多個過濾器，注意需要使用FilterList。

spark操作讀取hbase例項

博主專案實踐中，經常需要用spark從hbase中讀取資料。其中，spark的版本為1.6，hbase的版本為0.98。現在記錄一下如何在spark中操作讀取hbase中的資料。對於這種操作型的需求，沒有什麼比直接上程式碼更簡單明瞭的了。so，show me

大資料Spark優化讀取Hbase--region 提高並行數過程詳細解析

一. Hbase 的 region 我們先簡單介紹下 Hbase 的架構和 region ：從物理叢集的角度看，Hbase 叢集中，由一個 Hmaster 管理多個 HRegionServer，其中每個 HRegionServer 都對應一臺物理機器，一臺 HRegionServer

Spark如何讀取Hbase特定查詢的資料

最近工作需要使用到Spark操作Hbase，上篇文章已經寫了如何使用Spark讀寫Hbase全量表的資料做處理，但這次有所不同，這次的需求是Scan特定的Hbase的資料然後轉換成RDD做後續處理，簡單的使用Google查詢了一下，發現實現方式還是比較簡單的，用的還是Hb

Spark 讀取Hbase表資料並實現類似groupByKey操作

一、概述程式執行環境很重要，本次測試基於： hadoop-2.6.5 spark-1.6.2 hbase-1.2.4 zookeeper-3.4.6 jdk-1.8 廢話不多說了，直接上需求 Andy column=baseINFO:ag

Spark記錄-Spark-Shell客戶端操作讀取Hive數據

osi scrip shuff gist onf his serial rpc tab 1.拷貝hive-site.xml到spark/conf下，拷貝mysql-connector-java-xxx-bin.jar到hive/lib下 2.開啟hive元數據服務：hive

spark讀取hbase(NewHadoopAPI 例子)

package cn.piesat.controllerimport java.text.{DecimalFormat, SimpleDateFormat}import java.utilimport java.util.concurrent.{CountDownLatch, Executors, Futur

Spark 讀取 Hbase 優化 --手動劃分 region 提高並行數

一. Hbase 的 region 我們先簡單介紹下 Hbase 的架構和 region ：從物理叢集的角度看，Hbase 叢集中，由一個 Hmaster 管理多個 HRegionServer，其中每個 HRegionServer 都對應一臺物理機器，一臺 HRegionServer 伺服器上又可

windows環境下使用Spark讀取HBase

windows環境下使用Spark讀取HBase 工具：IDEA 環境：jdk1.8，scala2.11 hbase：1.2-cdh5.16.1 spark：1.6-cdh5.16.1 hadoop：2.6.0-cdh5.16.1 以上元件都是用Cloudera Manager離線

使用Spark/Java讀取已開啟Kerberos認證的HBase

1.賦予drguo使用者相應的許可權 2.KDC中建立drguo使用者並匯出相應的keytab檔案 [root@bigdata28 ~]# kadmin.local Authenticating as principal drguo/admin

【python】pandas庫pd.read_excel操作讀取excel檔案引數整理與例項

除了使用xlrd庫或者xlwt庫進行對excel表格的操作讀與寫，而且pandas庫同樣支援excel的操作；且pandas操作更加簡介方便。首先是pd.read_excel的引數：函式為： pd.read_excel(io, sheetname=0,he

Spark學習-SparkSQL--06-spark讀取HBase資料報異常java.io.NotSerializableException

1.準備工作，安裝好HABSE之後，執行Hbase shell create ‘表名稱’, ‘列名稱1’,’列名稱2’,’列名稱N’ create ‘表名稱’,’列族名稱’ 在hbase中列是可以動態新增的，只需要有個列族就可以了 create

Spark 操作Hbase 對錶的操作：增刪改查 scala

原文地址：http://www.ithao123.cn/content-2523824.html [摘要：正在build.sbt中設定裝備擺設依附（止之間須要空） ame := test2 scalaVersion := 2.10.4 libraryDependencies

spark操作hdfs統計單詞例項 for Eclipse

Set() 2018-09-07 20:27:46 INFO Utils:54 - Successfully started service 'sparkDriver' on port 1623. 2018-09-07 20:27:46 INFO SparkEnv:54 - Registering Map

spark常見操作系列(3)--spark讀寫hbase(2)

接著上一篇, 問題(2): scan有 scan.setCaching(10000) scan.setCacheBlocks(true) 等設定.setCaching ,個人感覺不夠用.hbase 預設是在記憶體裡面放一塊資料用來讀取,所以讀取效率比較高,可是,

Spark訪問與HBase關聯的Hive表

刪除 sql 也會影響 ron ble lec lang nbsp 知識點1：創建關聯Hbase的Hive表知識點2：Spark訪問Hive 知識點3：Spark訪問與Hbase關聯的Hive表知識點1：創建關聯Hbase的Hive表兩種方式創建，內部表和外部表

Spark 操作Hive 流程

pen 系統權限 usr art cal tar 數據密碼連接 1.ubuntu 裝mysql 2.進入mysql： 3.mysql>create database hive （這個將來是存你在Hive中建的數據庫以及表的信息的（也就是元數據））mysql=》h

大牛博客！Spark / Hadoop / Kafka / HBase / Storm

logs 梳理 ubuntu http log 9.png kafka 分布努力　　　　在這裏，非常感謝下面的著名大牛們，一路的幫助和學習，給予了我很大的動力！　　有了Hadoop，再次有了Spark，一次又一次，一晚又一晚的努力相伴！ HBa

MapReduce-讀取HBase

run hdf read reduce 數據 use leo keyvalue AMM MapReduce讀取HBase數據代碼如下 package com.hbase.mapreduce; import java.io.IOException; import or

lucene原始碼分析(2)讀取過程例項

1.官方提供的程式碼demo Analyzer analyzer = new StandardAnalyzer(); // Store the index in memory: Directory directory = new RAMDirec

【Python筆記】操作讀取Excel檔案、文字檔案

需求：讀取Excel檔案、替換文字檔案中得指定某個字串並生成新的檔案原始碼： #encoding:utf-8 # -*- coding: utf-8 -*- #!/usr/bin/env python # -*- coding=utf-8 -*- #Using GPL v2 #Author:

spark操作讀取hbase例項

相關推薦