Spark整合Kudu

阿新 • • 發佈：2020-09-07

package spark.demo

import org.apache.spark.sql.{DataFrame, SparkSession}
import org.apache.kudu.spark.kudu._

/**
  * <dependency>
  * <groupId>org.apache.kudu</groupId>
  * <artifactId>kudu-spark2_2.11</artifactId>
  * <version>1.8.0</version>
  * </dependency>
  * 
  * <dependency>
  * <groupId>org.apache.spark</groupId>
  * <artifactId>spark-sql_2.11</artifactId>
  * <version>2.1.1</version>
  * </dependency>
  */
object SparkKuduDemo {

  def main(args: Array[String]): Unit = {

    val spark: SparkSession = SparkSession
      .builder()
      .appName(getClass.getSimpleName)
      .master("local[2]")
      .getOrCreate()

    val df: DataFrame = spark.read.options(Map(
      "kudu.master" -> "centos00:7051",
      "kudu.table" -> "my_kudu_table")).kudu

    /**
      * 獲取全表內容(左對齊)
      *
      * +---+-------+
      * |id |name   |
      * +---+-------+
      * |2  |Mike   |
      * |10 |Phoniex|
      * |1  |David  |
      * |8  |Alex   |
      * |5  |Jorden |
      * +---+-------+
      */
    df.show(false)

    /**
      * 按照id倒序排序, 且只顯示前3條記錄
      *
      * +---+-------+
      * |id |name   |
      * +---+-------+
      * |10 |Phoniex|
      * |8  |Alex   |
      * |5  |Jorden |
      * +---+-------+
      */
    df.sort(df("id").desc).show(3, false)

  }

}

Spark整合Kudu

package spark.demo import org.apache.spark.sql.{DataFrame, SparkSession} import org.apache.kudu.spark.kudu._

Spark整合Kudu(Spaek shell)

[root@centos00 spark-2.2.1-cdh5.14.2]# bin/spark-shell --master local[2]--packages org.apache.kudu:kudu-spark2_2.11:1.8.0

Spark整合Mongodb的方法

Spark介紹按照官方的定義，Spark 是一個通用，快速，適用於大規模資料的處理引擎。

Spark 系列（十六）—— Spark Streaming 整合 Kafka

一、版本說明 Spark 針對 Kafka 的不同版本，提供了兩套整合方案：spark-streaming-kafka-0-8 和 spark-streaming-kafka-0-10，其主要區別如下：

Spark 系列（十五）—— Spark Streaming 整合 Flume

一、簡介 Apache Flume 是一個分散式，高可用的資料收集系統，可以從不同的資料來源收集資料，經過聚合後傳送到分散式計算框架或者儲存系統中。Spark Straming 提供了以下兩種方式用於 Flume 的整合。

Spark Streaming整合Kafka調優

調優 Spark Streaming整合Kafka時，當資料量較小時預設配置一般都能滿足我們的需要，但是當資料量大的時候，就需要進行一定的調整和優化。

Spark(十四)【SparkSQL整合Hive】

目錄1.內嵌的HIVE2.整合外部的Hivespark-shellIdea開發中FAQ 1.內嵌的HIVE 如果使用 Spark 內嵌的 Hive, 則什麼都不用做, 直接使用即可.

SpringBoot連線多資料來源（HBASE,KUDU,ORACLE整合和開發庫）

前提：1.連線hadoop需要本地安裝winutils.exe 並在程式指定，不然程式會報錯IOException: HADOOP_HOME or hadoop.home.dir are not set. 但不指定程式可能啟動。

spark-streaming與kafka的整合

1. 概述在2.x中，spark有兩個用來與kafka整合的程式碼，版本代號為0.8和0.10，由於在0.8，kafka有兩套消費者api，根據高階api得到了Receiver-based Approach，根據低階api得到了Direct Approach，而在0.10由於kaf

Spark叢集中整合hive（元資料是MySQL）

技術標籤：大資料叢集學習筆記大資料hivespark 本文的前提是，已經在叢集的一個節點配置好了hive，我的hive已經再Hadoop104節點配置完畢，並且可以正常啟動和執行。一.將hive-site.xml,複製到spark主節點的conf

大資料實踐（十） Spark多種開發語言、與Hive整合

技術標籤：Hadoop Spark 可以使用scala、Java、Sql、Python、R語言進行開發。在bin目錄下也提供了spark-shell、spark-sql、sparkR、pyspark等互動方式。

遷移到Spark Operator和S3的4個整合步驟

技術標籤：雲原生kubernetesspark雲端儲存hdfs 2020年CNCF中國雲原生調查 10人將獲贈CNCF商店$100美元禮券！

Spark(二十一)【SparkSQL讀取Kudu，寫入Kafka】

目錄SparkSQL讀取Kudu,寫出到Kafka1. pom.xml 依賴2.將KafkaProducer利用lazy val的方式進行包裝, 建立KafkaSink3.利用廣播變數，將KafkaProducer廣播到每一個executor

檢視 spark-sql 的 SQL語法樹、spark-sql 的優化、整合 hive 之後通過程式碼操作

檢視 spark-sql 的 SQL語法樹、spark-sql 的優化、整合 hive 之後通過程式碼操作目錄

spark streaming整合kafka中聚合類運算如何和kafka保持exactly once一致性語義（redis方式，利用pipeline）

/** * 從Kafka讀取資料，實現ExactlyOnce，偏移量儲存到Redis中 * 1.將聚合好的資料，收集到Driver端，

spark streaming整合kafka中聚合類運算如何和kafka保持exactly once一致性語義（mysql方式，利用事務）

/** * 從Kafka讀取資料，實現ExactlyOnce，偏移量儲存到MySQL中 * 1.將聚合好的資料，收集到Driver端，

spark streaming整合kafka中非聚合類運算如何和kafka保持exactly once一致性語義（冪等性方式）

object KafkaToHbase { def main(args: Array[String]): Unit = { //true a1 g1 ta,tb val Array(isLocal, appName, groupId, allTopics) = args

spark-streaming整合Kafka處理實時資料

在這篇文章裡，我們模擬了一個場景，實時分析訂單資料，統計實時收益。場景模擬

必讀：再講Spark與kafka 0.8.2.1+整合

Kafka在0.8和0.10版本引入了新的消費者API，所以spark Streaming與kafka的整合提供了兩個包。請根據你的叢集選用正確的包。注意， 0.8和後期的版本0.9及0.10是相容的，但是0.10整合是不相容之前的版本的。

必讀：Spark與kafka010整合

SparkStreaming與kafka010整合讀本文之前，請先閱讀之前文章：必讀：再講Spark與kafka 0.8.2.1+整合

Spark整合Kudu

相關推薦