Spark(十)【RDD的讀取和儲存】

阿新 • • 發佈：2020-08-06

一.檔案型別
二.檔案系統
- 1. MySQL
- 2. Hbase

一.檔案型別

1.Text檔案

讀寫

讀取
scala> val hdfsFile = sc.textFile("hdfs://hadoop102:9000/fruit.txt")
hdfsFile: org.apache.spark.rdd.RDD[String] = hdfs://hadoop102:9000/fruit.txt MapPartitionsRDD[21] at textFile at <console>:24
儲存
scala> hdfsFile.saveAsTextFile("/fruitOut")

2.Json檔案

使用RDD讀取JSON檔案處理很複雜，同時SparkSQL集成了很好的處理JSON檔案的方式，所以應用中多是採用SparkSQL處理JSON檔案。

（1）匯入解析json所需的包
scala> import scala.util.parsing.json.JSON
（2）上傳json檔案到HDFS
[atguigu@hadoop102 spark]$ hadoop fs -put ./examples/src/main/resources/people.json /
（3）讀取檔案
scala> val json = sc.textFile("/people.json")
json: org.apache.spark.rdd.RDD[String] = /people.json MapPartitionsRDD[8] at textFile at <console>:24
（4）解析json資料
scala> val result  = json.map(JSON.parseFull)
result: org.apache.spark.rdd.RDD[Option[Any]] = MapPartitionsRDD[10] at map at <console>:27

3.物件檔案

物件檔案是將物件序列化後儲存的檔案，採用Java的序列化機制。可以通過objectFilek,v 函式接收一個路徑，讀取物件檔案，返回對應的 RDD，也可以通過呼叫saveAsObjectFile() 實現對物件檔案的輸出。因為是序列化所以要指定型別

讀寫

（1）建立一個RDD
scala> val rdd = sc.parallelize(Array(1,2,3,4))
rdd: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[19] at parallelize at <console>:24
（2）將RDD儲存為Object檔案
scala> rdd.saveAsObjectFile("file:///opt/module/spark/objectFile")
（3）檢視該檔案
[hadoop@hadoop102 objectFile]$ pwd
/opt/module/spark/objectFile

[hadoop@hadoop102 objectFile]$ ll
總用量 8
-rw-r--r-- 1 atguigu atguigu 142 10月  9 10:37 part-00000
-rw-r--r-- 1 atguigu atguigu 142 10月  9 10:37 part-00001
-rw-r--r-- 1 atguigu atguigu   0 10月  9 10:37 _SUCCESS

[hadoop@hadoop102 objectFile]$ cat part-00000 
SEQ!org.apache.hadoop.io.NullWritable"org.apache.hadoop.io.BytesWritableW@`l
（4）讀取Object檔案
scala> val objFile = sc.objectFile[Int]("file:///opt/module/spark/objectFile")
objFile: org.apache.spark.rdd.RDD[Int] = MapPartitionsRDD[31] at objectFile at <console>:24
（5）列印讀取後的Sequence檔案
scala> objFile.collect
res19: Array[Int] = Array(1, 2, 3, 4)

4.Sequence檔案

很少用了。。

注意：SequenceFile檔案只針對PairRDD
（1）建立一個RDD
scala> val rdd = sc.parallelize(Array((1,2),(3,4),(5,6)))
rdd: org.apache.spark.rdd.RDD[(Int, Int)] = ParallelCollectionRDD[13] at parallelize at <console>:24
（2）將RDD儲存為Sequence檔案
scala> rdd.saveAsSequenceFile("file:///opt/module/spark/seqFile")
（3）檢視該檔案
[hadoop@hadoop102 seqFile]$ pwd
/opt/module/spark/seqFile

[hadoop@hadoop102 seqFile]$ ll
總用量 8
-rw-r--r-- 1 atguigu atguigu 108 10月  9 10:29 part-00000
-rw-r--r-- 1 atguigu atguigu 124 10月  9 10:29 part-00001
-rw-r--r-- 1 atguigu atguigu   0 10月  9 10:29 _SUCCESS
[hadoop@hadoop102 seqFile]$ cat part-00000
SEQ org.apache.hadoop.io.IntWritable org.apache.hadoop.io.IntWritableط
（4）讀取Sequence檔案
scala> val seq = sc.sequenceFile[Int,Int]("file:///opt/module/spark/seqFile")
seq: org.apache.spark.rdd.RDD[(Int, Int)] = MapPartitionsRDD[18] at sequenceFile at <console>:24
（5）列印讀取後的Sequence檔案
scala> seq.collect
res14: Array[(Int, Int)] = Array((1,2), (3,4), (5,6))

二.檔案系統

1. MySQL

依賴

  <dependency>
      <groupId>mysql</groupId>
      <artifactId>mysql-connector-java</artifactId>
      <version>5.1.27</version>
  </dependency>

讀取

import java.sql.DriverManager
import org.apache.spark.rdd.JdbcRDD
import org.apache.spark.{SparkConf, SparkContext}

/**
 * @description: 從Mysql讀取資料
 * @author: HaoWu
 * @create: 2020年08月05日
 */
object MySqlReadWriteTest {
  def main(args: Array[String]): Unit = {
    val sparkConf: SparkConf = new SparkConf().setMaster("local[2]").setAppName("JdbcApp")
    val sc: SparkContext = new SparkContext(sparkConf)
    val rdd: JdbcRDD[(Int, String)] = new JdbcRDD(
      sc,
      () => {
        Class.forName("com.mysql.jdbc.Driver").newInstance()
        DriverManager.getConnection("jdbc:mysql://hadoop102:3306/azkaban", "root", "root")
      },
      "select * from project_files where project_id >= ? and project_id <= ?;",
      1,
      4,
      1,
      //返回值是個陣列，已經將JDBC返回的結果處理過。
      r => (r.getInt(1), r.getString(2)))
    println(rdd.count())
    rdd.foreach(println(_))
    sc.stop()
  }
}

儲存

import java.sql.{Connection, DriverManager, PreparedStatement}
import org.apache.spark.rdd.{JdbcRDD, RDD}
import org.apache.spark.{SparkConf, SparkContext}

/**
 * @description: 向Mysql中插入資料
 * @author: HaoWu
 * @create: 2020年08月05日
 */
object MySqlReadWriteTest {
  def main(args: Array[String]): Unit = {
    val sparkConf: SparkConf = new SparkConf().setMaster("local[2]").setAppName("JdbcApp")
    val sc: SparkContext = new SparkContext(sparkConf)
    val list = List((1, 9), (1, 10))
    val rdd: RDD[(Int, Int)] = sc.makeRDD(list)
    //使用foreachPartition效率更高，批量，不用頻繁建立mysql連線
    rdd.foreachPartition(iter => {
      // 建立Connection
      val con: Connection = DriverManager.getConnection("jdbc:mysql://hadoop102:3306/azkaban", "root", "root")
      //準備sql
      val sql="insert into project_files(project_id,version) values(?,?)"

      //PreapredStatement
      val ps: PreparedStatement = con.prepareStatement(sql)
      //將批量資料依次插入
      iter.foreach{
        case(project_id,version) => {
          //插入int型別
          ps.setInt(1,project_id)
          ps.setInt(2,version)
          //執行sql
          ps.executeUpdate()
        }
      }
      ps.close()
      con.close()
    })
    sc.stop()
  }
}

2. Hbase

依賴

   <dependency>
       <groupId>org.apache.hbase</groupId>
       <artifactId>hbase-server</artifactId>
       <version>2.0.0</version>
   </dependency>

   <dependency>
       <groupId>org.apache.hbase</groupId>
       <artifactId>hbase-client</artifactId>
       <version>2.0.0</version>
   </dependency>

   <dependency>
       <groupId>org.apache.hbase</groupId>
       <artifactId>hbase-mapreduce</artifactId>
       <version>2.0.0</version>
   </dependency>

將hbase的配置檔案hbase-site.xml，放到resource目錄，保留連線zookeeper

	<property>
		<name>hbase.zookeeper.quorum</name>
		<value>hadoop102,hadoop103,hadoop104</value>
	</property>

讀取


import org.apache.hadoop.conf.Configuration
import org.apache.hadoop.hbase.{Cell, CellUtil, HBaseConfiguration}
import org.apache.hadoop.hbase.client.Result
import org.apache.hadoop.hbase.io.ImmutableBytesWritable
import org.apache.hadoop.hbase.mapreduce.TableInputFormat
import org.apache.hadoop.hbase.util.Bytes
import org.apache.spark.rdd.NewHadoopRDD
import org.apache.spark.{SparkConf, SparkContext}
/**
 * @description: Hbase的讀取
 * @author: HaoWu
 * @create: 2020年08月05日
 */
object HbaseReadWriterTest {
  def main(args: Array[String]): Unit = {
    val sparkConf = new SparkConf().setAppName("RDDTest").setMaster("local[*]")
    val sc = new SparkContext(sparkConf)
    // 建立連線   預設讀取hadoop中的配置檔案，和hbase中的配置檔案  預設使用的還是TextInputFormat
    val conf: Configuration = HBaseConfiguration.create()
    // 設定當前要讀取哪個表
    conf.set(TableInputFormat.INPUT_TABLE, "bigdata:user")
    //核心建立RDD
    val rdd = new NewHadoopRDD[ImmutableBytesWritable, Result](sc,
      classOf[TableInputFormat],
      classOf[ImmutableBytesWritable],
      classOf[Result],
      conf)
    rdd.foreach {
      case (rowKey, result) => {
        // CellUtil  : 取出Cell某個屬性   Bytes: 將Java中的資料型別 和byte[]互轉
        // 獲取一條資料的所有cell
        val cells: Array[Cell] = result.rawCells()
        for (cell <- cells) {
          println(Bytes.toString(CellUtil.cloneRow(cell)) + " " +
            Bytes.toString(CellUtil.cloneFamily(cell)) + ":" + Bytes.toString(CellUtil.cloneQualifier(cell)) + " " +
            Bytes.toString(CellUtil.cloneValue(cell)))
        }
      }
    }
  }
}

寫入


import org.apache.hadoop.conf.Configuration
import org.apache.hadoop.hbase.HBaseConfiguration
import org.apache.hadoop.hbase.client.Put
import org.apache.hadoop.hbase.io.ImmutableBytesWritable
import org.apache.hadoop.hbase.mapreduce.TableOutputFormat
import org.apache.hadoop.hbase.util.Bytes
import org.apache.hadoop.mapreduce.Job
import org.apache.spark.rdd. RDD
import org.apache.spark.{SparkConf, SparkContext}
/**
 * @description: Hbase的儲存
 * @author: HaoWu
 * @create: 2020年08月05日
 */
object HbaseReadWriterTest {
  def main(args: Array[String]): Unit = {
    val sparkConf = new SparkConf().setAppName("RDDTest").setMaster("local[*]")
    val sc = new SparkContext(sparkConf)
    // 建立連線   預設讀取hadoop中的配置檔案，和hbase中的配置檔案  預設使用的還是TextInputFormat
    val conf: Configuration = HBaseConfiguration.create()
    // 設定當前要寫出到哪個表
    conf.set(TableOutputFormat.OUTPUT_TABLE, "bigdata:user")

    //在Conf中設定各種引數
    val job: Job = Job.getInstance(conf)

    //設定輸出格式
    job.setOutputFormatClass(classOf[TableOutputFormat[ImmutableBytesWritable]])

    // 設定輸出的key,value的型別
    job.setOutputKeyClass(classOf[ImmutableBytesWritable])
    job.setOutputValueClass(classOf[Put])

    // 用list封裝資料(rowkey,(列簇，列，值))
    val list = List(("1005", ("info2", "age", "20")), ("1005",( "info2", "name", "marry")), ("1006", ("info2", "age", "21")))

    val rdd: RDD[(String, (String, String, String))] = sc.makeRDD(list, 2)

    // 使用spark將資料封裝為輸出的key-value型別
    val rdd2: RDD[(ImmutableBytesWritable, Put)] = rdd.map {
      case (rowkey, (cf, cq, v)) => {
        //封裝rowkey
        val key = new ImmutableBytesWritable()
        key.set(Bytes.toBytes(rowkey))
        //封裝put
        val value = new Put(Bytes.toBytes(rowkey))
        value.addColumn(Bytes.toBytes(cf), Bytes.toBytes(cq), Bytes.toBytes(v))
        (key, value)
      }
    }

    //之前設定的配置傳入
    rdd2.saveAsNewAPIHadoopDataset(job.getConfiguration)
  }
}

踩的坑

在跑讀取hbase資料的時候發現程式報錯：

原因：pom的hbase依賴包必須放置spark-core包後面，不然就報這個錯誤。

java.lang.ExceptionInInitializerError
	at org.apache.spark.SparkContext.withScope(SparkContext.scala:751)
	at org.apache.spark.SparkContext.textFile(SparkContext.scala:882)
	at com.spark.rdd.RDDTest.testMap(RDDTest.scala:62)
	at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
	at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:62)
	at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
	at java.lang.reflect.Method.invoke(Method.java:498)
	at org.junit.runners.model.FrameworkMethod$1.runReflectiveCall(FrameworkMethod.java:50)
	at org.junit.internal.runners.model.ReflectiveCallable.run(ReflectiveCallable.java:12)
	at org.junit.runners.model.FrameworkMethod.invokeExplosively(FrameworkMethod.java:47)
	at org.junit.internal.runners.statements.InvokeMethod.evaluate(InvokeMethod.java:17)
	at org.junit.internal.runners.statements.RunBefores.evaluate(RunBefores.java:26)
	at org.junit.internal.runners.statements.RunAfters.evaluate(RunAfters.java:27)
	at org.junit.runners.ParentRunner.runLeaf(ParentRunner.java:325)
	at org.junit.runners.BlockJUnit4ClassRunner.runChild(BlockJUnit4ClassRunner.java:78)
	at org.junit.runners.BlockJUnit4ClassRunner.runChild(BlockJUnit4ClassRunner.java:57)
	at org.junit.runners.ParentRunner$3.run(ParentRunner.java:290)
	at org.junit.runners.ParentRunner$1.schedule(ParentRunner.java:71)
	at org.junit.runners.ParentRunner.runChildren(ParentRunner.java:288)
	at org.junit.runners.ParentRunner.access$000(ParentRunner.java:58)
	at org.junit.runners.ParentRunner$2.evaluate(ParentRunner.java:268)
	at org.junit.runners.ParentRunner.run(ParentRunner.java:363)
	at org.junit.runner.JUnitCore.run(JUnitCore.java:137)
	at com.intellij.junit4.JUnit4IdeaTestRunner.startRunnerWithArgs(JUnit4IdeaTestRunner.java:68)
	at com.intellij.rt.execution.junit.IdeaTestRunner$Repeater.startRunnerWithArgs(IdeaTestRunner.java:47)
	at com.intellij.rt.execution.junit.JUnitStarter.prepareStreamsAndStart(JUnitStarter.java:242)
	at com.intellij.rt.execution.junit.JUnitStarter.main(JUnitStarter.java:70)
Caused by: com.fasterxml.jackson.databind.JsonMappingException: Scala module 2.10.0 requires Jackson Databind version >= 2.10.0 and < 2.11.0
	at com.fasterxml.jackson.module.scala.JacksonModule.setupModule(JacksonModule.scala:61)
	at com.fasterxml.jackson.module.scala.JacksonModule.setupModule$(JacksonModule.scala:46)
	at com.fasterxml.jackson.module.scala.DefaultScalaModule.setupModule(DefaultScalaModule.scala:17)
	at com.fasterxml.jackson.databind.ObjectMapper.registerModule(ObjectMapper.java:751)
	at org.apache.spark.rdd.RDDOperationScope$.<init>(RDDOperationScope.scala:82)
	at org.apache.spark.rdd.RDDOperationScope$.<clinit>(RDDOperationScope.scala)
	... 27 more

Spark(十)【RDD的讀取和儲存】

目錄一.檔案型別1.Text檔案2.Json檔案3.物件檔案4.Sequence檔案二.檔案系統1. MySQL2. Hbase

Spark(五)【RDD的序列化】

目錄1.閉包檢查2.序列化方法和屬性3.序列化異常解決方案4.Kryo序列化框架 1.閉包檢查

Spark(八)【廣播變數和累加器】

在spark程式中，當一個傳遞給Spark操作(例如map和reduce)的函式在遠端節點上面執行時，Spark操作實際上操作的是這個函式所用變數的一個獨立副本。這些變數會被複制到每臺機器上，並且這些變數在遠端機器上的所有更新

Spark(七)【RDD的持久化Cache和CheckPoint】

RDD的持久化 1. RDD Cache快取 RDD通過Cache或者Persist方法將前面的計算結果快取，預設情況下會把資料以快取在JVM的堆記憶體中。但是並不是這兩個方法被呼叫時立即快取，而是觸發後面的action運算元時，該RDD將會

Spark(九)【RDD的分割槽和自定義Partitioner】

目錄spark的分割槽一. Hash分割槽二. Ranger分割槽三. 自定義Partitioner案例 spark的分割槽

Spark(三)【RDD中的自定義排序】

在RDD中預設的運算元sortBy，sortByKey只能真的值型別資料升序或者降序現需要對自定義物件進行自定義排序。

Spark專案實戰從0到1之（1）Spark讀取和儲存HDFS上的資料

本篇來介紹一下通過Spark來讀取和HDFS上的資料，主要包含四方面的內容：將RDD寫入HDFS、讀取HDFS上的檔案、將HDFS上的檔案新增到Driver、判斷HDFS上檔案路徑是否存在。

python利用Excel讀取和儲存測試資料完成介面自動化教程

http_request2.py用於發起http請求 #讀取多條測試用例 #1、匯入requests模組 import requests

使用SimpleITK讀取和儲存NIfTI/DICOM檔案例項

我就廢話不多說了，大家還是直接看程式碼吧~ ## using simpleITK to load and save data.

Hadoop基礎（五十）：壓縮和儲存（二）

4開啟 Reduce 輸出階段壓縮當 Hive 將輸出寫入到表中時，輸出內容同樣可以進行壓縮。屬性hive.exec.compress.output 控制著這個功能。使用者可能需要保持預設設定檔案中的預設值 false，

pytorch 讀取和儲存模型引數

只儲存引數資訊載入 checkpoint = torch.load(opt.resume) model.load_state_dict(checkpoint) 儲存

第二課：檔案操作【問題查詢和解決】

因為編譯器的不同，可能執行的效果也不同，小編用VS2019的。寫出程式碼有問題，那就是考驗一個人解決問題的能力體現。有問題不用怕，就怕沒問題。Are you OK?

【C++檔案和流】

C++ 檔案和流檔案和流標準庫 <fstream> 資料型別: ofstream, ifstream, fstream 開啟檔案 open() 函式

【專案管理和構建】——Maven下載、安裝和配置（二）

前言在上篇博文【專案管理和構建】——Maven簡介（一）中我們瞭解到maven是一種全新的專案構建方式，讓我們的開發更加簡單,高效。Maven主要做的是兩件事：

Spark(二十一)【SparkSQL讀取Kudu，寫入Kafka】

目錄SparkSQL讀取Kudu,寫出到Kafka1. pom.xml 依賴2.將KafkaProducer利用lazy val的方式進行包裝, 建立KafkaSink3.利用廣播變數，將KafkaProducer廣播到每一個executor

flask框架自定義過濾器示例【markdown檔案讀取和展示功能】

本文例項講述了flask框架自定義過濾器。分享給大家供大家參考，具體如下：

Spark(十四)【SparkSQL整合Hive】

目錄1.內嵌的HIVE2.整合外部的Hivespark-shellIdea開發中FAQ 1.內嵌的HIVE 如果使用 Spark 內嵌的 Hive, 則什麼都不用做, 直接使用即可.

Spark(十六)【SparkStreaming基本使用】

目錄一. SparkStreaming簡介1. 相關術語2. SparkStreaming概念3. SparkStreaming架構4. 背壓機制二. Dstream入門1. WordCount案例實操2. WordCount解析3. web UI注意三. Dstream建立1. RDD佇列（測試使用）2. 自定義

十二、解決【夜神模擬器和手機】同時連線電腦出現：adb server version(31) doesn‘t match this client（41）和adb devices 無法識別

1. 啟動夜神模擬器後 cmd - adb devices:出現：adb server version(31) doesn\'t match this client（41）

【Python3】xlwt/xlrd模組讀取和新建excel並生成直方圖

此文轉載自：https://blog.csdn.net/weixin_52855865/article/details/110109460#commentBox Python-Excel處理

Spark(十)【RDD的讀取和儲存】

一.檔案型別

1.Text檔案

2.Json檔案

3.物件檔案

4.Sequence檔案

二.檔案系統

1. MySQL

2. Hbase

相關推薦