srotByKey為什麼會觸發job

阿新 • • 發佈：2018-11-29

大家都只知道srotByKey是一個transformation運算元，而transformation型別的運算元是不觸發Job的，但是有心的人會注意到，在我們呼叫sortByKey這個運算元時，可以從UI介面看到，sortByKey竟然會觸發Job
其實sortByKey 在執行時會對分割槽中的資料進行取樣，把取樣的資料再進行收集（collect），那麼此時就會觸發一個Job,具體的原因可以往下看原始碼

以下是原始碼分析
如果又哪裡寫錯了歡迎糾正
參考文章
https://blog.csdn.net/u014393917/article/details/50602047

可以先大概的跟一邊程式碼
（1）呼叫sortByKey時，會new一個RangePartitioner類
在這裡插入圖片描述

（2）點進RangePartitioner中，會初始化一個rangeBounds的陣列
再裡面呼叫了sketch方法（在類中，在方法外，相當於是構造方法中的）
在這裡插入圖片描述

（3）點進sketch方法中，這裡呼叫了一個collect方法，點進這個collect方法中，可以發現是rdd的方法，會呼叫runJob
在這裡插入圖片描述

上面是大概看了一遍，有興趣的可以再向下看原始碼的分析

  def sortByKey(ascending: Boolean = true, numPartitions: Int = self.partitions.length)
      : RDD[(K, V)] = self.withScope
  { 

    // new  了一個RangePartitioner, 傳入分割槽數， 
    //呼叫方法的rdd, 排序規則,
    //點入RangePartitiner方法中
    val part = new RangePartitioner(numPartitions, self, ascending)
    new ShuffledRDD[K, V, V](self, part)
      .setKeyOrdering(if (ascending) ordering else ordering.reverse)
  }

這裡直接取了一部分程式碼，是在new RangePartitioner 初始化時會執行的

class RangePartitioner[K : Ordering : ClassTag, V](
    partitions: Int,
    rdd: RDD[_ <: Product2[K, V]],
    private var ascending: Boolean = true)
  extends Partitioner {

  // We allow partitions = 0, which happens when sorting an empty RDD under the default settings.
  require(partitions >= 0, s"Number of partitions cannot be negative but found $partitions.")

  private var ordering = implicitly[Ordering[K]]

  // An array of upper bounds for the first (partitions - 1) partitions
  //初始化一個rangeBounds, 陣列型別
  private var rangeBounds: Array[K] = {
    if (partitions <= 1) {  //如果分割槽的數小於等於1， 則建立一個空陣列
      Array.empty
    } else {
      // This is the sample size we need to have roughly balanced output partitions, capped at 1M.
      //這是我們需要大致平衡輸出分割槽的樣本量，上限為1M。
      //一個大約的分割槽的樣本量,最多不超過1e6(1000000)個大約1M,
      // 預設是分割槽個數的20倍.如果這個分割槽太多時,只取1e6的個數.
      val sampleSize = math.min(20.0 * partitions, 1e6)
      // Assume the input partitions are roughly balanced and over-sample a little bit.
      //假設輸入分割槽大體上是平衡的，並且有點過取樣。
      //對樣本數* 3/ 分割槽數 ，去天花板，再取證，得到的是每個分割槽取樣的數
      val sampleSizePerPartition = math.ceil(3.0 * sampleSize / rdd.partitions.length).toInt
      //在每個分割槽中去 sampleSizePerpartition 個樣， 注意sketch方法中使用了collect方法，會觸發一個job
      //這裡可以直接看下一部分程式碼，看sketch方法，再下面
      val (numItems, sketched) = RangePartitioner.sketch(rdd.map(_._1), sampleSizePerPartition)
      /*這裡返回的sketched方法是一個數組, 陣列的長度是rdd的partitions的個數,
     陣列中每一個元素是一個Iterator(partitionid,這個partition中總的資料條數,Array[key](
     長度是樣本個數,或者一個小於樣本個數的值(這種情況表示partition的資料不夠樣本個數))),
*/

      if (numItems == 0L) {  //如果獲取的樣本數==0
        Array.empty
      } else {
        // If a partition contains much more than the average number of items, we re-sample from it
        // to ensure that enough items are collected from that partition.
        //如果一個分割槽包含的專案數量遠遠超過平均數量，那麼我們將重新對其進行取樣
        //sampleSize是上面定義的樣本數量 通過取樣的個數除上總的資料的條數,得到一個分數值.
        val fraction = math.min(sampleSize / math.max(numItems, 1L), 1.0)
        //這個candidates中儲存有用於計算排序的key的候選人資訊
        val candidates = ArrayBuffer.empty[(K, Float)]
        //儲存超過平均值太多的分割槽
        val imbalancedPartitions = mutable.Set.empty[Int]
        //對呼叫sktched方法後返回的樣本進行foreach
        sketched.foreach { case (idx, n, sample) =>
          //分值 * 每個分割槽樣本個數 如果 大於 設定的sampleSizePerPartition 值
          if (fraction * n > sampleSizePerPartition) {
            imbalancedPartitions += idx //新增到imbalancedPartitions，需要重新取樣
          } else {
            // The weight is 1 over the sampling probability.
            val weight = (n.toDouble / sample.length).toFloat
            for (key <- sample) {
              candidates += ((key, weight))
            }
          }
        }
        if (imbalancedPartitions.nonEmpty) {//如果需要重新抽樣的集合不為空
          // Re-sample imbalanced partitions with the desired sampling probability.
          //據需要重新進行取樣的partition生成一個PartitionPruningRDD例項.
          // 這個例項中只計算需要進行重新取樣的partition.傳入引數中的imbalancedPartitions.contains用於過濾partition
          val imbalanced = new PartitionPruningRDD(rdd.map(_._1), imbalancedPartitions.contains)
          val seed = byteswap32(-rdd.id - 1)
          //重新抽樣，這裡的seed類似於種子取隨機數的感覺
          val reSampled = imbalanced.sample(withReplacement = false, fraction, seed).collect()

          val weight = (1.0 / fraction).toFloat
          candidates ++= reSampled.map(x => (x, weight))
        }
        RangePartitioner.determineBounds(candidates, partitions)
      }
    }

sketch方法：

  def sketch[K : ClassTag](
      rdd: RDD[K],
      sampleSizePerPartition: Int): (Long, Array[(Int, Long, Array[K])]) = {
    val shift = rdd.id
    // val classTagK = classTag[K] // to avoid serializing the entire partitioner object
    //使用mapPartitionsWtithIndex方法，獲取分割槽號和每個元素
    val sketched = rdd.mapPartitionsWithIndex { (idx, iter) => // idx ，分割槽號， iter每個分割槽中的資料是一個迭代器
      //
      val seed = byteswap32(idx ^ (shift << 16))

      //reservoirSampleAndCount 還返回輸入大小的儲存庫抽樣實現， 返回一個樣本（陣列型別），和輸入的長度
      val (sample, n) = SamplingUtils.reservoirSampleAndCount(  
        iter, sampleSizePerPartition, seed)  //意思大概就是從每個分割槽中取一些樣本 
      Iterator((idx, n, sample))    //迭代器中是 分割槽號，每個分割槽的樣本數，樣本（陣列型別）
    }.collect()  //先收集每個分割槽的樣本的，collect方法會產生一個job ，這裡是把取到的樣本後得到的rdd進行收集，點進collect方法會發現有一個runJob
    val numItems = sketched.map(_._2).sum  // 這個numItems應該是總共的樣本數
    (numItems, sketched) //最後把樣本數，一個收集好的樣本Array[key]型別返回
  }

srotByKey為什麼會觸發job

大家都只知道srotByKey是一個transformation運算元，而transformation型別的運算元是不觸發Job的，但是有心的人會注意到，在我們呼叫sortByKey這個運算元時，可以從UI介面看到，sortByKey竟然會觸發Job 其實sortByKey 在執行時會對分

kinematic與static剛體不會觸發任何接觸回調

post line 鏈接 back ide ear static collision col Main.as package{ import Box2D.Common.Math.b2Vec2; import Box2D.Dynamics.b2Body;

jQuery 嵌套 event 會觸發多次的原因

document button 鼠標 div 結果 rip multipl sub javascrip Html代碼如下： <div id="cover"> <input type="button" id="inside" value="submit

form.submit 方法並不會觸發 form.onsubmit 事件

undefined action value 一個 font var 提交按鈕測試事件做表單的時候發現一個奇怪的地方，總結下：form.submit 方法並不會觸發 form.onsubmit 事件，看代碼：<body> <div clas

element-ui中下拉菜單中的@click事件不會觸發的問題

發的 com 圖片 bsp 觸發菜單點擊事件 nat 分享圖片只需要將@click=“fun()”改為@click.native=“fun()”,即可監聽下拉菜單的點擊事件。如圖所示：嗯，就醬~element-ui中下拉菜單中的@click事件不會觸發的問題

java基礎—常用的GC策略，什麽時候會觸發YGC，什麽時候觸發FGC？

響應過程不同機制顯示垃圾執行我們觸發gc 一、內存回收策略和常見概念常見內存回收策略可以從以下幾個維度來理解： 1 串行&並行串行：單線程執行內存回收工作。十分簡單，無需考慮同步等問題，但耗時較長，不適合多cpu。並行：多線程並發進行回收工作。適

什麽是離屏渲染？什麽情況下會觸發？該如何應對？

循環進行 off scree err 如果概念 ram rendering 離屏渲染就是在當前屏幕緩沖區以外，新開辟一個緩沖區進行操作。離屏渲染出發的場景有以下：圓角（maskToBounds並用才會觸發）圖層蒙版陰影光柵化為什麽要有離屏渲染?

為什麼CRM Opportunity的刪除會觸發一個通向BW系統的RFC

今天工作時我發現，我在SE38裡用函式CRM_ORDER_DELETE刪除一個Opportunity，居然彈出下圖這個SAP Logon的螢幕，要連線BR1。這是什麼鬼？！查了一下，BR1是BW系統。這就更奇怪了，我在CRM系統做業務資料的刪除，關BW系統什麼事呢？還是老老實實debug吧。

mysql什麼情況下會觸發表鎖（深度好文！！！）

https://www.cnblogs.com/sessionbest/articles/8689082.html 鎖是計算機協調多個程序或執行緒併發訪問某一資源的機制。在資料庫中，除傳統的計算資源（如CPU、RAM、I/O等）的爭用以外，資料也是一種供許多使用者共享的資源。如

解決Extjs一次雙擊會觸發兩次單擊事件，和一次雙擊事件

分享一下我老師大神的人工智慧教程！零基礎，通俗易懂！http://blog.csdn.net/jiangjunshow 也歡迎大家轉載本篇文章。分享知識，造福人民，實現我們中華民族偉大復興！給我老師的人工智慧教程打call！http://blog.csdn.net/ji

微信小程式坑-scroll-view滑動列表（就一行，沒有填滿螢幕就會觸發上拉載入事件）

比方說如下圖片中有一個滑動列表。我的這個頁面只有一行資料，按理說我們滑動時候是不應該觸發上拉載入的，因為滑動的 scroll-view元素高度是設定的100%。結果我這裡就觸發了上拉載入事件。圖中兩個箭頭，箭頭1的地方是 scroll-view的一個子元素的margin-to

Spark 觸發Job提交

Spark 觸發Job提交更多資源 github: https://github.com/opensourceteams/spark-scala-maven csdn(彙總視訊線上看): https://blog.csdn.net/thinktothings/arti

美解決echarts的柱狀圖和折線圖的點選非圖表圖形元素不會觸發事件

在涉及到圖示的開發中，相信大家經常會用到echarts，echarts中可以通過on方法新增事件處理函式，可以很方便的實現一些互動。如：但是直接新增的click事件，只有點選在圖形元素上才會觸發事件處理函式。以柱狀圖和折線圖為例：在上述兩張圖中，只

easyui-window 關閉事件，只要關閉視窗就會觸發

$(function () { $('#windowsMSG').window({ onBeforeClose: function () { //當面板關閉之前觸發的事件 if

android開發"windowlocationhref"重定向不會觸發Android webview.shouldOverrideUrlLoading

比較坑猿的一個問題，IOS沒問題，安卓卻不行，以為webview自己沒用對，最終卻發現，伺服器端是通過window.location.href來重定向的，安卓不會觸發shouldOverrideUrlLoading。專案中要用

在Angular輸入框內按下回車會觸發其它button的點選事件的解決方法

將不需要觸發事件的button上新增type="button"即可<button type="button" (click)="clickMe()">click</button>參考：https://stackoverflow.com/question

wx.previewimage預覽返回會觸發onshow的處理方法

1、page外全域性定義開關變數 var a; Page({})2、onshow事件中： if (a) { a = false; return; }3、在你需

轉【在ie9下在textbox框裡面輸入內容按enter鍵會觸發按鈕的事件】

問題在ie下，如果存在有button標籤，如果在textbox裡面輸入內容，按下enter鍵，則會觸發第一個按鈕的click事件，經過測試，在IE10以及以下的都存在這個問題原因瀏覽器預設行為不一致導致 IE瀏覽器IE8及以後的版本，會根據頁面使用的文件模式（Defining

三次握手的第三個ACK包丟了——客戶端認為連線建立，寫資料時，會觸發RST

序上次面試被問到一個問題，在TCP建立連線的三次握手階段，如果客戶端傳送的第三個ACK包丟了，那麼客戶端和伺服器端分別進行什麼處理？聽到問題，一下愣掉，有點傻了，根據讀書時模模糊糊的印象，答了答，無疑打錯了T...T 分析

poi 操作 excel 裡面設定的公式不會自動計算需要雙擊才會觸發

poi 操作 excel 裡面設定的公式不會自動計算需要雙擊才會觸發 2014年11月28日 11:20:11 稀飯土豆的番茄閱讀數：5111更多個人分類： JAVAWEB //excel設定公式自動計算 she

srotByKey為什麼會觸發job

相關推薦