spark 連線hbase

阿新 • • 發佈：2019-02-06

一、環境準備

1、複製HBase目錄下的lib檔案 到 spark目錄/lib/hbase。spark 依賴此lib

清單如下：guava-12.0.1.jar            htrace-core-3.1.0-incubating.jar protobuf-java-2.5.0.jar   這三個jar加上以hbase開頭所有jar，其它就不必了。全部複製會引起報錯。

2、修改spark配置檔案（spark-env.sh），在最後面增加一行

export SPARK_CLASSPATH=/usr/local/spark-1.5.1-bin-hadoop2.4/lib/hbase/*

重啟spark叢集，然後執行操作

import org.apache.hadoop.conf.Configuration;  
import org.apache.hadoop.hbase.HBaseConfiguration;  
import org.apache.hadoop.hbase.HColumnDescriptor;  
import org.apache.hadoop.hbase.HTableDescriptor;  
import org.apache.hadoop.hbase.client.Get;  
import org.apache.hadoop.hbase.client.HBaseAdmin 
;  
import org.apache.hadoop.hbase.client.HTable;  
import org.apache.hadoop.hbase.client.Put;  
import org.apache.hadoop.hbase.client.Result;  
import org.apache.hadoop.hbase.client.ResultScanner;  
import org.apache.hadoop.hbase.client.Scan;  
import org.apache.hadoop.hbase.util.Bytes; 
#主要是下面幾個包
import org.apache 
.hadoop.hbase.HBaseConfiguration
import org.apache.hadoop.hbase.client.Result
import org.apache.hadoop.hbase.io.ImmutableBytesWritable
import org.apache.hadoop.hbase.mapreduce.TableInputFormat

val conf = HBaseConfiguration.create()

conf.set(TableInputFormat.INPUT_TABLE,"thd")

val rdd = sc.newAPIHadoopRDD(conf,classOf[TableInputFormat],classOf[ImmutableBytesWritable],classOf[Result])

此時如果檢視rdd.take(1)執行得到後可能會報錯

 ERROR Executor: Exception in task 0.0 in stage 14.0 (TID 14)
java.io.NotSerializableException: org.apache.hadoop.hbase.io.ImmutableBytesWritable

rdd裡的內容需要轉化成string
執行rdd.map(_.toString)
之後正常，從而可以利用spark對hbase進行rdd操作了…

spark 連線hbase

一、環境準備 1、複製HBase目錄下的lib檔案到 spark目錄/lib/hbase。spark 依賴此lib 清單如下：guava-12.0.1.jar htrace-core-3.1.0-incubating.jar prot

Spark連線需Kerberos認證的HBase

Prerequisite krb5.conf 或 krb5.ini xx.keytab core-site.xml hbase-core.xml Codes hBaseConfig.addResource("hbase-site.xml") h

IDEA中 Spark 讀Hbase 報錯處理：

ado htable client ets rim ogg expec zookeep ati SLF4J: Actual binding is of type [org.slf4j.impl.Log4jLoggerFactory] 17/11/19 14:25:57 E

大數據學習系列之七 ----- Hadoop+Spark+Zookeeper+HBase+Hive集

pat 修改配置文件防止聲明 mir rac detail jre_home true 引言在之前的大數據學習系列中，搭建了Hadoop+Spark+HBase+Hive 環境以及一些測試。其實要說的話，我開始學習大數據的時候，搭建的就是集群，並不是單機模式和

Spark和hbase整合遇到的一些問題

1.Spark計算都轉移到了一個節點上，即只有一個節點在計算。搭建好的spark叢集，進行計算的時候發現，所有的slave節點上的task生成後，快速退出，並且生成好多task。檢視spark ui上發現，只有主節點上有正常task執行，其他的

使用phoenix連線hbase

hbase本身不支援SQL查詢，為了實現這個功能，引入了phoenix，通過它可以實現hbase的sql查詢。這裡記錄下如何配置並使用phoenix來操作hbase。 1. 下載地址 phoenix下載地址：http://apache.fayea.com/phoenix/。注意：phoenix和hba

使用Python連線Hbase資料庫

　　在使用Python連線Hbase資料庫時，會出現如下錯誤提示，主要原因是版本帶來的語法相容性問題，因此需要用Hbase.py和ttypes.py將路徑D:\Program Files\ProgramData\Anaconda3\Lib\site-packages\hbase(自己的Python安裝目錄)下

spark讀取hbase(NewHadoopAPI 例子)

package cn.piesat.controllerimport java.text.{DecimalFormat, SimpleDateFormat}import java.utilimport java.util.concurrent.{CountDownLatch, Executors, Futur

k8s叢集中 spark訪問hbase中資料

首先我們需要對hbase的訪問原理非常清除.可以參考:https://blog.csdn.net/luanpeng825485697/article/details/80319552 我們這裡已經在k8s中部署了hdfs和zookeeper以及hbase.部署可以參考: https:

HBase-Client連線HBase提示NoSuchColumnFamilyException

1、使用HBase-client連線叢集HBase報錯NoSuchColumnFamilyException，網上查詢資料說是客戶端和叢集的HBase版本不對應。檢查後發現叢集HBase版本是1.2.4，client版本是2.0.1。 2、將client版本修改為對應的1.2.4版本，之後報異常

Hive連線Hbase操作資料

Hive連線Hbase操作資料版權宣告：本文為博主原創文章，未經博主允許不得轉載。轉載請註明來自http://blog.csdn.net/lr131425 https://blog.csdn.net/lr131425/article/details/72722932 Hi

使用python通過Thrift連線Hbase(Demo)

# coding=utf-8 from thrift.transport import TSocket, TTransport from thrift.protocol import TBinaryP

spark +kafka +hbase

package com.prince.demo.test import java.util.UUID import com.typesafe.config.{Config, ConfigFactory} import org.apache.hadoop.hbase.HBa

Spark 讀取 Hbase 優化 --手動劃分 region 提高並行數

一. Hbase 的 region 我們先簡單介紹下 Hbase 的架構和 region ：從物理叢集的角度看，Hbase 叢集中，由一個 Hmaster 管理多個 HRegionServer，其中每個 HRegionServer 都對應一臺物理機器，一臺 HRegionServer 伺服器上又可

spark連線並讀取本地檔案報錯總結

1.scala.Predef$.refArrayOps([Ljava/lang/Object;)Lscala/collection/mutable/ArrayOps; 錯誤原因：scala版本與spark版本相容問題導致，可在maven倉庫看spark所使用jar包支援的scala版本。注

spark從hbase讀取寫入資料

將RDD寫入hbase 注意點：依賴：將lib目錄下的hadoop開頭jar包、hbase開頭jar包新增至classpath 此外還有lib目錄下的：zookeeper-3.4.6.jar、metrics-core-2.2.0.jar（缺少會提示hbase Rpc

Java API連線Hbase時報錯WARN No appenders could be found for logger

報錯的內容如下： log4j:WARN No appenders could be found for logger (org.apache.hadoop.metrics2.lib.MutableMetricsFactory). log4j:WARN Pleas

[bigdata-128] python3以thrift2的方式連線hbase

1.hbase的版本是1.2.6。hbase必須啟動thrift2服務。 2.客戶端作業系統是ubuntu 16.04。python版本3.5 3.客戶端安裝 thrift 3.1 官網 http://thrift.apache.org/ 3.1 獲取原始碼

解決java連線Hbase程式卡住執行也不報錯的問題

問題描述：最近在hadoop叢集上搭建好Hbase，用hbase shell進行增刪改查操作都沒有問題，但是用java API來對hbase進行操作卻出現一個很奇怪的問題，就是執行java程式後沒有任何反應，程式也不報錯。首先貼出我的測試程式碼： import java

k8s叢集中 spark訪問hbase中資料

hbase資料分割槽是按照region進行的，分割槽的location就是各個region的location。那麼後續分配executor時可以按照region所在機器分配對應executor，直接在本機讀取資料計算。我們先來往hbase裡面寫兩個資料 h

spark 連線hbase

相關推薦