Spark讀寫Hbase的二種方式對比

阿新 • • 發佈：2018-12-18

作者：Syn良子出處：http://www.cnblogs.com/cssdongl 轉載請註明出處

一.傳統方式

這種方式就是常用的TableInputFormat和TableOutputFormat來讀寫hbase，如下程式碼所示

簡單解釋下，用sc.newAPIHadoopRDD根據conf中配置好的scan來從Hbase的資料列族中讀取包含(ImmutableBytesWritable, Result)的RDD,

隨後取出rowkey和value的鍵值對兒利用StatCounter進行一些最大最小值的計算最終寫入hbase的統計列族.

二.SparkOnHbase方式

重點介紹第二種方式,這種方式其實是利用Cloudera-labs開源的一個HbaseContext的工具類來支援spark用RDD的方式批量讀寫hbase,先給個傳送門大家感受下

雖然這個hbase-spark的module在Hbase上的整合任務很早就完成了，但是已知釋出的任何版本我還沒找到該模組，不知道什麼情況,再等等吧

那麼問題來了，這種方式的優勢在哪兒呢，官方的解釋我翻譯如下

1>無縫的使用Hbase connection

2>和Kerberos無縫整合

3>通過get或者scan直接生成rdd

4>利用RDD支援hbase的任何組合操作

5>為通用操作提供簡單的方法，同時通過API允許不受限制的未知高階操作

6>支援java和scala

7>為spark和 spark streaming提供相似的API

ok，由於hbaseContext是一個只依賴hadoop,hbase,spark的jar包的工具類，因此可以拿過來直接用

廢話不說，直接用我除錯過的程式碼來感受下

想用HbaseContext很簡單，如上面程式碼所示,需要說明的是hbaseContext的hbaseScanRDD方法，這個方法返回的是一個

(RowKey, List[(columnFamily, columnQualifier, Value)]型別的RDD,如下

剛開始用的挺不習慣的.還得迴圈取出來rowkey對應的這麼多列,這裡你如果對它的RDD返回型別不爽，官方很貼心的提供了另外一個方法

怎麼樣，是不是看著很眼熟了?你可以自定義第三個引數(ImmutableBytesWritable, Result)，對函式f進行自定義來返回你自己喜歡的RDD格式，

程式執行結果如下，過濾出了9:20到9:58所有的rowkey以及對應的列

當然HbaseContext還有其他bulkGet，bulkPut,bulkDelete等，都是可以直接將hbase的操作轉換成RDD,只要轉成RDD了，那麼rdd的這麼多transform和action就可以玩的很happy了.

參考資料

Spark讀寫Hbase的二種方式對比

作者：Syn良子出處：http://www.cnblogs.com/cssdongl 轉載請註明出處一.傳統方式這種方式就是常用的TableInputFormat和TableOutputFormat來讀寫hbase，如下程式碼所示簡單解釋下，用sc.newA

spark讀寫hbase效能對比

一、spark寫入hbase hbase client以put方式封裝資料，並支援逐條或批量插入。spark中內建saveAsHadoopDataset和saveAsNewAPIHadoopDataset兩種方式寫入hbase。為此，將同樣的資料插入其中對比效能。依賴如下：

spark讀寫hbase

1 配置 1.1 開發環境： HBase：hbase-1.0.0-cdh5.4.5.tar.gzHadoop：hadoop-2.6.0-cdh5.4.5.tar.gzZooKeeper：zookeeper-3.4.5-cdh5.4.5.tar.gzSpark：spark-2.1.0-bin-hadoop2.

iOS --- 關於SandBox機制及檔案讀寫的幾種方式

iOS中的SandBox（沙盒）機制是一種安全體系，它規定了APP只能在為該APP建立的資料夾內讀取檔案，不可以訪問其他地方的內容。所有的非程式碼檔案都儲存在這個地方，比如圖片、聲音、屬性列表和文字檔案等。即：每個應用程式都在自己的沙盒內不能隨意跨越自己

如何使用scala+spark讀寫hbase？

最近工作有點忙，所以文章更新頻率低了點，希望大家可以諒解，好了，言歸正傳，下面進入今天的主題：如何使用scala+spark讀寫Hbase 軟體版本如下： scala2.11.8 spark2.1.0 hbase1.2.0 公司有一些實時資料處理的專案，儲存

spark常見操作系列(3)--spark讀寫hbase(2)

接著上一篇, 問題(2): scan有 scan.setCaching(10000) scan.setCacheBlocks(true) 等設定.setCaching ,個人感覺不夠用.hbase 預設是在記憶體裡面放一塊資料用來讀取,所以讀取效率比較高,可是,

Spark讀寫Hbase資料

環境 spark: 2.4.3 hbase: 1.1.5 步驟啟動hadoop-3.1.2,hbase2.2.0 把HBas

java.io幾種讀寫文件的方式

同事 com pan 語言格式 str 字節流 get 實用一、Java把這些不同來源和目標的數據都統一抽象為數據流。　　Java語言的輸入輸出功能是十分強大而靈活的。　　在Java類庫中，IO部分的內容是很龐大的，因為它涉及的領域很廣泛:標準輸入輸出，文件的操作，

spark通過phoenix讀寫hbase（Java版）-轉：https://blog.csdn.net/xiongbingcool/article/details/81458602

pom.xml  <dependency> <groupId

Scala和Java二種方式實戰Spark Streaming開發

在這裡我主要借鑑課上老師講的以及官網的ＡＰＩ來進行簡單的Spark Streaming的開發：一：java形式： 1.我們可以總結一下步驟：第一步：建立SparkConf物件第二步：建立SparkStreamingContext 第三步：建立愛你

大資料-05-Spark之讀寫HBase資料

準備工作一：建立一個HBase表這裡依然是以student表為例進行演示。這裡假設你已經成功安裝了HBase資料庫，如果你還沒有安裝，可以參考大資料-04-Hbase入門,進行安裝，安裝好以後，不要建立資料庫和表，只要跟著本節後面的內容操作即可。因為hbase依賴於hadoop，因此啟動和停止都是需要按

spark通過phoenix讀寫hbase（Java版）

pom.xml  <dependency> <groupId>or

C#文件讀寫（txt 簡單方式）

換行 line string txt 不換行返回 true text empty 1.文件寫入 // 路徑，寫入內容 System.IO.File.WriteAllText(@".\File.txt", string.Empty); 可更換相應的方法 2.文件讀入 /

7.打開文件、文件讀寫操作、with方式、文件常用函數

進行不能決定 height r+ 列表 inf pen ron 打開文件：在python3中，打開文件的函數是:open(file, mode=‘r‘, buffering=None, encoding=None, errors=None, newline=Non

Windows上安裝配置SSH教程（7）——幾種方式對比

由於客戶端方案 body open ins 下使用上傳下載直接服務端：Windows XP 客戶端：Windows 10 由於Cygwin也可以安裝OpenSSH，所以客戶端其實可以直接使用Cygwin安裝OpenSSH，那麽在Windows下使用SCP（安全拷貝

Spark讀寫OSS並使用OSS-Select來加速查詢

Spark讀寫OSS 基於這篇文章搭建的CDH6以及配置，我們來使Spark能夠讀寫OSS(其他版本的Spark都是類似的做法，不再贅述)。由於預設Spark並沒有將OSS的支援包放到它的CLASSPATH裡面，所以我們需要執行如下命令下面的步驟需要在所有的CDH節點執行進入到$CDH_HOME/

碎片Fragment(頁面上加入碎片併合理使用的二種方式和生命週期)

一、靜態註冊佈局檔案中直接放置fragment節點，可被多個佈局檔案同時引用（Logo 廣告等）注意：fragment 節點要增加name屬性指定該fragme

Spring --14.Spring中Dao使用JdbcTemplate的二種方式

在Dao中使用JdbcTemplate有二種方式： (1)、直接Dao中宣告jdbcTemplate、通過set方法注入值 (2)讓Dao繼承JdbcDaoSupport 1、直接在Dao中宣告JdbcTemplate。通過set方法注入JdbcTemplate屬性的值 appl

Apache Spark 讀寫Apache ignite 程式碼實戰

package com.zhw.bigdata.ignite; import org.apache.ignite.spark.IgniteDataFrameSettings; import org.apache.spark.sql.Dataset; import org.apache.spar

java:多執行緒(實現Runnable的原理)及二種方式的區別

* 1,看Thread類的建構函式,傳遞了Runnable介面的引用 * 2,通過init()方法找到傳遞的target給成員變數的target賦值 * 3,檢視run方法,發現run方法中有判斷,如果target不為null就會呼叫Runnable介面子類物件的run方法 *

Spark讀寫Hbase的二種方式對比

相關推薦