再探spark之二

阿新 • • 發佈：2018-12-25

在Spark2.X.X後，想要在Spark-shell中執行這個命令，你需要使用spark.sqlContext.sql()的形式。

spark的cache快取其中的方法（儲存在記憶體中）

.cache() //進行快取

.unpresist(true） //對資源進行釋放

spark的checkpoint機制（儲存在hdfs中）（checkpoint和cache都屬於transformation 需要action才能執行）

sc.setCheckpointDir("hdfs://hadoop01:9000/ck2018523")

val rdd = sc.textFile("hdfs://hadoop01:9000/itcast")

rdd.checkpoint

rdd.count //這裡會執行兩次，一個是本身的計算，一個是額外的checkpoint寫到hdfs

val rdd2=rdd.map(_.split("\t")).map(x =>(x(1), 1)).reduceByKey(_+_)

rdd2.cache //如果在checkpoint前面新加一個cache，會提高很快的效率，而不需要重新啟動一個額外的任務

rdd2.checkpoint

rdd2.collect

spark的提交流程如下圖

1、driver端向master端通訊，然後master端通知並分配任務給各個worker端

worker端啟動excutor剩下的就沒master什麼事了，主要是worker和driver之間的通訊

2、sc的產生標誌著driver和master端之間開始通訊

3、下面途中RDD objects 和DAGschedule都是在driver端完成的

1.1.1. 窄依賴

窄依賴指的是每一個父RDD的Partition最多被子RDD的一個Partition使用

總結：窄依賴我們形象的比喻為獨生子女

1.1.2. 寬依賴

寬依賴指的是多個子RDD的Partition會依賴同一個父RDD的Partition

總結：窄依賴我們形象的比喻為超生

stage 的劃分是根據寬依賴，寬依賴大多伴隨著shuffle所以不能在一條流水線（pipeline）上

SparkSQL

第一種dataframe建立的方式

package com.wxa.spark.four

import org.apache.spark.sql.SQLContext
import org.apache.spark.{SparkConf, SparkContext}

object SQLDemowxa {
  def main(args: Array[String]): Unit = {
    val conf = new SparkConf().setAppName("SQLDemo").setMaster("local[2]")
    val sc = new SparkContext(conf)
    val sqlContext = new SQLContext(sc)
    System.setProperty("user.name","root")  //這步設定登陸名
    val personRdd=sc.textFile("hdfs://hadoop01:9000/person.txt").map(line=>{
      val field =line.split(",")
      person(field(0).toLong,field(1),field(2).toInt)
    })
    import sqlContext.implicits._
    val personDF = personRdd.toDF() //轉為dataframe
    personDF.show()         //這是DSL風格的方式模仿R語言 如 res1.select("id","name").show 有點像sql但不是SQL方式 


//    personDF.registerTempTable("person")  //轉為用sql的方式，註冊成sql表，將其轉化成表方便sqlcontext用sql來進行查詢
//    sqlContext.sql("select * from person where age>=25 order by age asc limit 2").show()
    sc.stop
  }

}

case class  person(id:Long,name:String,age:Int)

將程式提交上去執行spark-submit --class com.wxa.spark.four.SQLDemowxa --master spark://hadoop01:7077 scalaMaven-1.0.jar
以json形式寫到hdfs上面 res1.select("id","name").write.json("hdfs://hadoop01:9000/json")

在Spark-Sell下啟用SQL報錯：error: not found: value sqlContext解決方案

在Spark2.X.X後，想要在Spark-shell中執行這個命令，你需要使用spark.sqlContext.sql()的形式。

將json資料直接讀取進來，直接變成dataframe

val df=spark.sqlContext.load("hdfs://hadoop01:9000/json","json")

parquet檔案型別

res1.select("id","name").save("hdfs://hadoop01:9000/out000")儲存在hdfs上面會產生parquet這類的檔案

df上面的一些方法

第二種構建dataframe的方法（通過StructType）

object SpecifyingSchema {
  def main(args: Array[String]) {
    //建立SparkConf()並設定App名稱
    val conf = new SparkConf().setAppName("SQL-2")
    //SQLContext要依賴SparkContext
    val sc = new SparkContext(conf)
    //建立SQLContext
    val sqlContext = new SQLContext(sc)
    //從指定的地址建立RDD
    val personRDD = sc.textFile(args(0)).map(_.split(" "))
    //通過StructType直接指定每個欄位的schema
    val schema = StructType(
      List(
        StructField("id", IntegerType, true),
        StructField("name", StringType, true),
        StructField("age", IntegerType, true)
      )
    )
    //將RDD對映到rowRDD
    val rowRDD = personRDD.map(p => Row(p(0).toInt, p(1).trim, p(2).toInt))
    //將schema資訊應用到rowRDD上
    val personDataFrame = sqlContext.createDataFrame(rowRDD, schema)
    //登錄檔
    personDataFrame.registerTempTable("t_person")
    //執行SQL
    val df = sqlContext.sql("select * from t_person order by age desc limit 4")
    //將結果以JSON的方式儲存到指定位置
    df.write.json(args(1))
    //停止Spark Context
    sc.stop()
  }
}

再探spark之二

在Spark2.X.X後，想要在Spark-shell中執行這個命令，你需要使用spark.sqlContext.sql()的形式。spark的cache快取其中的方法（儲存在記憶體中） .cache() //進行快取.unpresist(true） //對資源進行釋放s

再探spark之一（複習之前）加spark如何實現遠端除錯程式碼

Scala的練習https://blog.csdn.net/yewakui2253/article/details/80022403alt+p可以用來上傳東西僅限於secureCRT然後put F:\Users\Administrator\WorkspacesIDEA\sc

Spark 入門之十二：再看Spark中的排程策略（Standlone）

資源排程是Spark中比較重要的內容，對排程的相關原理以及策略的瞭解對叢集的執行以及優化都會有很大的幫助，資源排程的方式有多種,Local,Standlone,Yarn,Mesos等，本文只針對Standlone的方式做簡介幾個重要的概念開始文章之前

Spring學習之旅（四）Spring工作原理再探

容器 mxml 實現 span ssp express 16px 部分做了上篇博文對Spring的工作原理做了個大概的介紹，想看的同學請出門左轉。今天詳細說幾點。（一）Spring IoC容器及其實例化與使用 Spring IoC容器負責Bean的實例化、配置和組裝工

大資料之Spark（二）--- RDD，RDD變換，RDD的Action，解決spark的資料傾斜問題，spark整合hadoop的HA

一、Spark叢集執行 ------------------------------------------------------- 1.local //本地模式 2.standalone //獨立模式 3.yarn //yarn模式

Spark-MLlib的快速使用之二（樸素貝葉斯分類）

（1）演算法描述演算法介紹：樸素貝葉斯法是基於貝葉斯定理與特徵條件獨立假設的分類方法。樸素貝葉斯的思想基礎是這樣的：對於給出的待分類項，求解在此項出現的條件下各個類別出現的概率，在沒有其它可用資訊下，我們會選擇條件概率最大的類別作為此待分類項應屬的類別。（2）測試資料 1

零基礎入門大資料探勘之spark中的幾種map

今天再來說一下spark裡面的幾種map方法。前面的文章介紹過單純的map，但是spark還有幾種map值得對比一下，主要是下面幾種： map：普通的map flatMap：在普通map的基礎上多了一個操作，扁平化操作； mapPartitions：相對於分割槽P

零基礎入門大資料探勘之spark的rdd

本節簡單介紹一下spark下的基本資料結構RDD，方便理解後續的更多操作。那麼第一個問題，什麼是rdd。我們知道，大資料一般儲存在分散式叢集裡面，那麼你在對其進行處理的時候總得把它讀出來吧，讀出來後總得把它存成某種格式的檔案吧，就好比程式語言裡面的，這個資料是陣列，那麼你可以以陣列

Kubernetes與大資料之二：編譯並執行基於Scalar的Spark程式WordCount

一、前言通過SBT編譯scala程式然後在Kubernetes使用Spark執行WordCount任務。轉載自https://blog.csdn.net/cloudvtech 二、安裝環境和編譯 2.1 安裝SBT mv bintray-sbt-rpm

Spark程式設計指南之二：向Spark運算元傳遞函式

文章目錄向Spark運算元傳遞函式 Java的兩種方法匿名內部類建立類實現Function介面 Scala的兩種方法傳遞匿名函式定義全域性單例物件中的靜態方法

WCF技術剖析之二：再談IIS與ASP.NET管道

在2007年9月份，我曾經寫了三篇詳細介紹IIS架構和ASP.NET執行時管道的文章，深入介紹了IIS 5.x與IIS 6.0HTTP請求的監聽與分發機制，以及ASP.NET執行時管道對HTTP請求的處理流程：很多人留言為何沒有IIS 7的介紹。在寫作《WCF深入剖析》中，為了剖析基於IIS的WCF服

iOS開發之再探多執行緒程式設計：Grand Central Dispatch詳解

Swift3.0相關程式碼已在github上更新。之前關於iOS開發多執行緒的內容釋出過一篇部落格，其中介紹了NSThread、操作佇列以及GCD，介紹的不夠深入。今天就以GCD為主題來全面的總結一下GCD的使用方式。GCD的歷史以及好處在此就不做過多的贅述了。本篇部落格會通過一系列的例項來好好的總結一下GC

資料探勘之關聯分析二（頻繁項集的產生）

頻繁項集的產生格結構（lattice structure）常常用來表示所有可能的項集。發現頻繁項集的一個原始方法是確定格結構中每個候選項集的支援度。但是工作量比較大。另外有幾種方法可以降低產生頻繁項集的計算複雜度。 1. 減少候選項集的數目。如先驗

spark學習筆記之二：寬依賴和窄依賴

1.如果父RDD裡的一個partition只去向一個子RDD裡的partition為窄依賴，否則為寬依賴（只要是shuffle操作）。 2.spark根據運算元判斷寬窄依賴：窄依賴：map

Spark之獲取GBT二分類函式的概率值

　　在Spark中，GBT（Gradient Boost Trees，提升樹）函式用於實現機器學習中的提升樹演算法，目前僅支援二分類演算法。筆者在實際工作中需要獲得其預測的概率值，無奈該函式沒有相應的方法。　　經過筆者幾天的奮鬥，終於找到了解決之道。下面將分

spark mllib原始碼分析之二分類邏輯迴歸evaluation

在邏輯迴歸分類中，我們評價分類器好壞的主要指標有精準率（precision），召回率（recall），F-measure，AUC等，其中最常用的是AUC，它可以綜合評價分類器效能，其他的指標主要偏重一些方面。我們介紹下spark中實現的這些評價指標，便於使用sp

Spark之路：（二）wordCount小試

一、開發環境 IDEA 1、Scala外掛開啟IDEA -> Configure -> Plugins -> 選擇Scala -> Install 2、Scala的Jar包 File -> Project Structur

再探Circuit Breaker之使用Polly

前言上一篇介紹了使用Steeltoe來處理服務熔斷，這篇我們將用Polly來處理服務熔斷。不廢話了，直接進正題。簡單的例子同樣先定義一個簡單的服務。 [Route("api/[controller]")] public class ValuesController : Controller {

Spark定製版2：通過案例對SparkStreaming透徹理解三板斧之二

本節課主要從以下二個方面來解密SparkStreaming：一、解密SparkStreaming執行機制二、解密SparkStreaming架構 SparkStreaming執行時更像SparkCore上的應用程式，SparkStreaming程式啟動後會啟動很

spark入門之二 spark作業提交流程

spark作業提交流程在執行Spar應用程式時，會將Spark應用程式打包後使用spark-submit指令碼提交到Spark中執行，執行提交命令如下： ./bin/spark-submit examples/src/main/r/dataframe. 1.1為弄清

再探spark之二

spark的提交流程如下圖

1.1.1. 窄依賴

1.1.2. 寬依賴

stage 的劃分是根據寬依賴，寬依賴大多伴隨著shuffle所以不能在一條流水線（pipeline）上

SparkSQL

相關推薦