Spark讀寫Hbase資料

阿新 • • 發佈：2019-08-06

環境

spark: 2.4.3

hbase: 1.1.5

步驟

啟動hadoop-3.1.2,hbase2.2.0

把HBase的lib目錄下的一些jar檔案拷貝到Spark中，這些都是程式設計時需要引入的jar包，需要拷貝的jar檔案包括：所有hbase開頭的jar檔案、guava-12.0.1.jar、protobuf-java-2.5.0.jar

hbase建表，插入資料

idea開發spark操作hbase程式碼

build.sbt

spark讀取hbase資料


import org.apache.hadoop.hbase.client.Put
import org.apache.hadoop.hbase.mapreduce.TableInputFormat
import org.apache.hadoop.hbase.util.Bytes
import org.apache.hadoop.hbase.{HBaseConfiguration, TableName}
import org.apache.spark.{SparkConf, SparkContext}
object SparkOperateHBase {
  def main(args: Array[String]) {
    val conf = HBaseConfiguration.create()
    val sc = new SparkContext(new SparkConf())
    //設定查詢的表名
    conf.set(TableInputFormat.INPUT_TABLE, "student")
    val stuRDD = sc.newAPIHadoopRDD(conf, classOf[TableInputFormat],
      classOf[org.apache.hadoop.hbase.io.ImmutableBytesWritable],
      classOf[org.apache.hadoop.hbase.client.Result])
    val count = stuRDD.count()
    println("Students RDD Count:" + count)
    stuRDD.cache()

    //遍歷輸出
    stuRDD.foreach({ case (_,result) =>
      val key = Bytes.toString(result.getRow)
      val name = Bytes.toString(result.getValue("info".getBytes,"name".getBytes))
      val gender = Bytes.toString(result.getValue("info".getBytes,"gender".getBytes))
      val age = Bytes.toString(result.getValue("info".getBytes,"age".getBytes))
      println("Row key:"+key+" Name:"+name+" Gender:"+gender+" Age:"+age)
    })

  }
}

spark寫入hbase資料


import org.apache.hadoop.hbase.mapreduce.TableOutputFormat
import org.apache.spark._
import org.apache.hadoop.mapreduce.Job
import org.apache.hadoop.hbase.io.ImmutableBytesWritable
import org.apache.hadoop.hbase.client.Result
import org.apache.hadoop.hbase.client.Put
import org.apache.hadoop.hbase.util.Bytes

object SparkWriteHBase {
  def main(args: Array[String]): Unit = {
    val sparkConf = new SparkConf().setAppName("SparkWriteHBase").setMaster("local")
    val sc = new SparkContext(sparkConf)
    val tablename = "student"
    sc.hadoopConfiguration.set(TableOutputFormat.OUTPUT_TABLE, tablename)

    val job = new Job(sc.hadoopConfiguration)
    job.setOutputKeyClass(classOf[ImmutableBytesWritable])
    job.setOutputValueClass(classOf[Result])
    job.setOutputFormatClass(classOf[TableOutputFormat[ImmutableBytesWritable]])

    val indataRDD = sc.makeRDD(Array("3,Rongcheng,M,26", "4,Guanhua,M,27")) //構建兩行記錄
    val rdd = indataRDD.map(_.split(',')).map { arr => {
      val put = new Put(Bytes.toBytes(arr(0))) //行健的值
      put.addColumn(Bytes.toBytes("info"), Bytes.toBytes("name"), Bytes.toBytes(arr(1))) //info:name列的值
      put.addColumn(Bytes.toBytes("info"), Bytes.toBytes("gender"), Bytes.toBytes(arr(2))) //info:gender列的值
      put.addColumn(Bytes.toBytes("info"), Bytes.toBytes("age"), Bytes.toBytes(arr(3).toInt)) //info:age列的值
      (new ImmutableBytesWritable, put)
    }
    }
    rdd.saveAsNewAPIHadoopDataset(job.getConfiguration())

  }
}

sbt打包jar,釋出到測試環境執行spark

spark讀取hbase

./spark-submit --driver-class-path /home/hadoop/spark-2.5.3/jars/*:/opt/hbase-2.2.0/conf --class "SparkWriteHBase"  /home/hadoop/hbaseoperation_2.11-0.1.jar

spark寫入hbase

./spark-submit --driver-class-path /home/hadoop/spark-2.5.3/jars/*:/opt/hbase-2.2.0/conf --class "SparkWriteHBase"  /home/hadoop/hbaseoperation_2.11-0.1.jar

結果顯示：

填坑

步驟1中把hbase相關jar複製到spark的jars下的hbase資料夾內，執行spark報錯：

Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/hadoop/hbase/HBaseConfiguration

解決辦法：把步驟1中hbase的依賴複製到spark/jars目錄

參考資料

http://dblab.xmu.ed

Spark讀寫Hbase資料

環境 spark: 2.4.3 hbase: 1.1.5 步驟啟動hadoop-3.1.2,hbase2.2.0 把HBas

大資料-05-Spark之讀寫HBase資料

準備工作一：建立一個HBase表這裡依然是以student表為例進行演示。這裡假設你已經成功安裝了HBase資料庫，如果你還沒有安裝，可以參考大資料-04-Hbase入門,進行安裝，安裝好以後，不要建立資料庫和表，只要跟著本節後面的內容操作即可。因為hbase依賴於hadoop，因此啟動和停止都是需要按

Spark讀寫Hbase的二種方式對比

作者：Syn良子出處：http://www.cnblogs.com/cssdongl 轉載請註明出處一.傳統方式這種方式就是常用的TableInputFormat和TableOutputFormat來讀寫hbase，如下程式碼所示簡單解釋下，用sc.newA

spark讀寫hbase效能對比

一、spark寫入hbase hbase client以put方式封裝資料，並支援逐條或批量插入。spark中內建saveAsHadoopDataset和saveAsNewAPIHadoopDataset兩種方式寫入hbase。為此，將同樣的資料插入其中對比效能。依賴如下：

spark讀寫hbase

1 配置 1.1 開發環境： HBase：hbase-1.0.0-cdh5.4.5.tar.gzHadoop：hadoop-2.6.0-cdh5.4.5.tar.gzZooKeeper：zookeeper-3.4.5-cdh5.4.5.tar.gzSpark：spark-2.1.0-bin-hadoop2.

如何使用scala+spark讀寫hbase？

最近工作有點忙，所以文章更新頻率低了點，希望大家可以諒解，好了，言歸正傳，下面進入今天的主題：如何使用scala+spark讀寫Hbase 軟體版本如下： scala2.11.8 spark2.1.0 hbase1.2.0 公司有一些實時資料處理的專案，儲存

spark常見操作系列(3)--spark讀寫hbase(2)

接著上一篇, 問題(2): scan有 scan.setCaching(10000) scan.setCacheBlocks(true) 等設定.setCaching ,個人感覺不夠用.hbase 預設是在記憶體裡面放一塊資料用來讀取,所以讀取效率比較高,可是,

學習筆記:從0開始學習大資料-9. MapReduce讀並寫Hbase資料

上節的MapReduce計算WordCount例子是從hdfs讀輸入檔案，計算結果也寫入hdfs MapReduce分散式計算的輸入輸出可以根據需要從hdfs或hbase讀取或寫入，如 A.讀hdfs-->寫hdfs B.讀hdfs-->寫hbase C.讀hbase--

spark通過phoenix讀寫hbase（Java版）-轉：https://blog.csdn.net/xiongbingcool/article/details/81458602

pom.xml  <dependency> <groupId

使用Scala 讀寫MySQL 資料給Spark任務執行

初學Spark，需要從資料庫讀取資料給Spark執行，然後將執行結果返回給資料庫。由於Spark是基於 Scala 開發的，剛開始完全摸不到頭腦，本來是用java將資料庫資料寫到一個檔案，然後spark去讀這個檔案然後執行，又突然想到，既然scala寫的sp

spark通過phoenix讀寫hbase（Java版）

pom.xml  <dependency> <groupId>or

【spark 讀寫資料】資料來源的讀寫操作

通用的 Load/Save 函式在最簡單的方式下，預設的資料來源（parquet 除非另外配置通過spark.sql.sources.default）將會用於所有的操作。 Parquet 是一個列式儲存格式的檔案，被許多其他資料處理系統所支援。Spark

Spark讀寫OSS並使用OSS-Select來加速查詢

Spark讀寫OSS 基於這篇文章搭建的CDH6以及配置，我們來使Spark能夠讀寫OSS(其他版本的Spark都是類似的做法，不再贅述)。由於預設Spark並沒有將OSS的支援包放到它的CLASSPATH裡面，所以我們需要執行如下命令下面的步驟需要在所有的CDH節點執行進入到$CDH_HOME/

雙執行緒讀寫佇列資料

MFC對話方塊中一個按鈕的響應函式實現兩個功能：顯示資料同時處理資料，因此開兩個執行緒，一個執行緒顯示資料（開了一個定時器，響應WM_TIMER訊息按照一定時間間隔向TeeChart圖表新增資料並顯示）同時在佇列隊尾新增資料，另一個執行緒從該佇列隊頭去資料來處理。下面就來解決這個案例。先來分

matlab 檔案讀寫、資料讀取

目錄 1-檔案開啟與關閉 2-使用函式讀取文字資料 3-讀取數值型文字資料 4-讀取含有分隔符的ASCII資料檔案 5-二進位制資料的讀寫 6-使用檔案I/O函式 7-MAT檔案 1-檔案開啟與關閉 fopen('filename

GIS | 利用GDAL庫讀寫影像資料

基於Dataset public CPLErr ReadRaster(int xOff, int yOff, int xSize, int ySize, byte[] buffer, int buf_xSize, int buf_ySize, int bandCount, int[]

Apache Spark 讀寫Apache ignite 程式碼實戰

package com.zhw.bigdata.ignite; import org.apache.ignite.spark.IgniteDataFrameSettings; import org.apache.spark.sql.Dataset; import org.apache.spar

python讀寫mysql資料

python3讀取mysql資料或寫入資料到mysql中，需要安裝pymysql支援庫。安裝命令：pip install pymysql. python2操作mysql資料的支援庫是MySQLdb，本文采用python3。一、讀取mysql資料 1.資料庫準備在guest資料

python - 讀寫excel資料

# -*- coding:utf-8 -*- ''' @project: jiaxy @author: Jimmy @file: do_excel.py @ide: PyCharm Community Edition @time: 2018-12-05 11:11 @blog:

【GDAL學習】用OGR讀寫向量資料

學習資料：猶他州立大學：https://www.gis.usu.edu/~chrisg/python/2009/lectures/ospy_slides1.pdf 開放地理空間實驗室 http://www.osgeo.cn/python_gdal_utah_tutoria

Spark讀寫Hbase資料

環境

步驟

填坑

參考資料

相關推薦