spark運算結果寫入hbase及優化

阿新 • • 發佈：2019-01-29

在Spark中利用map-reduce或者spark sql分析了資料之後，我們需要將結果寫入外部檔案系統。

本文，以向Hbase中寫資料，為例，說一下，Spark怎麼向Hbase中寫資料。

首先，需要說一下，下面的這個方法。

foreach (func)

最通用的輸出操作，把func作用於從map-reduce生成的每一個RDD(spark  sql生成的DataFrame可轉成RDD)。

注意：這個函式是在執行spark程式的driver程序中執行的。

下面跟著思路，看一下，怎麼優雅的向Hbase中寫入資料

向外部資料庫寫資料，通常會建立連線，使用連線傳送資料(也就是儲存資料)。

<pre name="code" class="java"><span style="font-size:18px;color:#003300;">DataFrame dataFrame = Contexts.hiveContext.sql("select * from tableName");
dataFrame.javaRDD().foreach(new VoidFunction<Row> () {
    public void call(Row row) {
        HConnection conn = ...
        HTableInterface htable = conn.getTable("");
        //save to hbase
    }
});</span>

很遺憾！這種寫法是有極大風險的，這會導致，對於每條資料，都建立一個connection(建立connection是消耗資源的)。

事實上，由於資料是分割槽的，基於這個特性，還可以有更高效的方式

下面的方法會好一些：

<span style="font-size:18px;color:#003300;">DataFrame dataFrame = Contexts.hiveContext.sql("select * from tableName");
dataFrame.javaRDD().foreachPartition(new VoidFunction<Iterator<Row>> () {
    public void call(Iterator<Row> rows) {
        HConnection conn = ...
        HTableInterface htable = conn.getTable("");
        while(rows.hasNext()){
            //save to hbase
        }
    }
});</span>

上面的方法，使用 rdd.foreachPartition建立一個connection物件，一個RDD分割槽中的所有資料，都使用這一個connection。

在多個RDD之間，connection物件是可以重用的，所以可以建立一個連線池。如下：

<span style="font-size:18px;color:#003300;">dataFrame.javaRDD().foreachPartition(new VoidFunction<Iterator<Row>> () {
    public void call(Iterator<Row> rows) {
        HTableInterface htable = TablePool.getHTable("");
        while(rows.hasNext()){
            //save to hbase
        }
    }
});</span>

注意：連線池中的連線應該是，應需求而延遲建立，並且，如果一段時間沒用，就超時了(也就是關閉該連線)。

spark運算結果寫入hbase及優化

在Spark中利用map-reduce或者spark sql分析了資料之後，我們需要將結果寫入外部檔案系統。本文，以向Hbase中寫資料，為例，說一下，Spark怎麼向Hbase中寫資料。首先，

使用spark將資料寫入Hbase

--------------組裝xml並捕獲異常------------------- package wondersgroup_0628.com import java.io.{IOException, PrintWriter, StringReader, StringWriter} imp

spark 一些運算元的使用及優化

1、MapPartitions spark中，最基本的原則，就是每個task處理一個RDD的partition。 MapPartitions操作的優點：如果是普通的map，比如一個partition中有1萬條資料；ok，那麼你的function要執行和計算1萬次。

Spark將資料寫入Hbase以及從Hbase讀取資料

本文將介紹 1、spark如何利用saveAsHadoopDataset和saveAsNewAPIHadoopDataset將RDD寫入hbase 2、spark從hbase中讀取資料並轉化為RDD 操作方式為在eclipse本地執行spark連線到遠端的hbase。 ja

pvuv的程式碼開發及提交spark程式jar包執行讀取資料來源並將結果寫入MySQL中

目錄 PvUvToMysql類 ConnectionUtils類 jdbc.properties檔案在IDEA中打jar包的兩種方式 IDEA打jar包 IDEA中maven方式打jar包提交spark程式ja

【Spark 深入學習-08】說說Spark分區原理及優化方法

學習格式讀取文件 tmc 資料數值計算詳解 shc 存儲介質本節內容 ------------------ · Spark為什麽要分區 · Spark分區原則及方法 · Spark分區案例 · 參考

spark踩坑——dataframe寫入hbase連接異常

查找 inux ron user ora nat 文件 cor 1.8 最近測試環境基於shc[https://github.com/hortonworks-spark/shc]的hbase-connector總是異常連接不到zookeeper，看下報錯日誌： 18/06/

大資料學習之路106-spark streaming統計結果寫入mysql

我們首先將資料庫的配置資訊寫到配置檔案中。要使用配置檔案的話，首先我們要在pom檔案中匯入配置檔案讀取依賴： <dependency> <groupId>com.typesafe</groupId>

【Spark】SparkSql分析結果寫入Mysql

文章目錄前言裝備 Core Code 1. Mysql資料庫建結果表 2. DB配置檔案 3. 搞個檔案 4. 資料分層 5. SparkJob父類 6. MetroAnalysisJob（具體

Spark常見程式設計問題解決辦法及優化

目錄 1.資料傾斜 2.TopN 3.Join優化預排序的join cross join 考慮Join順序 4.根據HashMap、DF等資料集進行filter 5.Join去掉重複的列 6.展開NestedDF 7.計算session/

使用spark將資料以bulkload的方式寫入Hbase時報錯

Exception in thread "main" java.io.IOException: Trying to load more than 32 hfiles to one family of one region 從報錯日誌中可以很明顯看出因為Hfiles的個數超出了32預設的時32

【八】Spark Streaming 用foreachRDD把結果寫入Mysql中Local模式（使用Scala語言）

DStream 的foreachRDD是允許把資料傳送到外部檔案系統中。然而使用不當會導致各種問題。錯誤示範1：在driver建立連線，在woker使用。會報錯connection object not serializable。錯誤示範2：rdd每個記錄都建立連

【實踐】基於spark的CF實現及優化

最近專案中用到ItemBased Collaborative Filtering，實踐過spark mllib中的ALS，但是因為其中涉及到降維操作，大資料量的計算實在不能恭維。所以自己實踐實現基於spark的分散式cf，已經做了部分優化。目測執行效率還不錯。以下程式碼 p

從hbase表1中讀取資料，最終結果寫入到hbase表2 ，如何通過MapReduce實現？

需要一：將hbase中‘student’表中的info：name和info：age兩列資料取出並寫入到hbase中‘user’表中的basic：XM和basic：NL class ReadStudentMapper extends Table

Spark DataFrame寫入HBase的常用方式

Spark是目前最流行的分散式計算框架，而HBase則是在HDFS之上的列式分散式儲存引擎，基於Spark做離線或者實時計算，資料結果儲存在HBase中是目前很流行的做法。例如使用者畫像、單品畫像、推薦系統等都可以用HBase作為儲存媒介，供客戶端使用。因此Spark如何向H

Spark DataFrame寫入HBASE常用方式

Spark是目前最流行的分散式計算框架，而HBase則是在HDFS之上的列式分散式儲存引擎，基於Spark做離線或者實時計算，資料結果儲存在HBase中是目前很流行的做法。例如使用者畫像、單品畫像、推薦系統等都可以用HBase作為儲存媒介，供客戶端使用。因

spark讀取kafka資料寫入hbase

package com.prince.demo.test import java.util.UUID import com.typesafe.config.{Config, ConfigFactory} import org.apache.hadoop.hbase.HBa

Spark將計算結果寫入到Mysql中

今天主要來談談如果將Spark計算的結果寫入到Mysql或者其他的關係型資料庫裡面。其實方式也很簡單，程式碼如下： 01 /** 02 * User: 過往記憶

Spark中ip對映資料應用庫，二分查詢省份，將結果寫入mysql

def main(args: Array[String]): Unit = { val conf = new SparkConf() .setMaster("local") .setAppName(IpLocation3.getClass.getName) val sc =

Spark面對OOM問題的解決方法及優化總結

Spark中的OOM問題不外乎以下兩種情況 map執行中記憶體溢位shuffle後記憶體溢位 map執行中記憶體溢位代表了所有map型別的操作，包括：flatMap，filter，mapPatitions等。shuffle後記憶體溢位的shuffle操作包括join，reduceByKey

spark運算結果寫入hbase及優化

相關推薦