spark小技巧－mapPartitions

阿新 • • 發佈：2019-01-26

與map方法類似，map是對rdd中的每一個元素進行操作，而mapPartitions(foreachPartition)則是對rdd中的每個分割槽的迭代器進行操作。如果在map過程中需要頻繁建立額外的物件(例如將rdd中的資料通過jdbc寫入資料庫,map需要為每個元素建立一個連結而mapPartition為每個partition建立一個連結),則mapPartitions效率比map高的多。

SparkSql或DataFrame預設會對程式進行mapPartition的優化。

Demo

實現將每個數字變成原來的2倍的功能

比如：輸入2,結果(2,4)

使用map

val a = sc.parallelize(1 
 to 9, 3)
def mapDoubleFunc(a : Int) : (Int,Int) = {
    (a,a*2)
}
val mapResult = a.map(mapDoubleFunc)

println(mapResult.collect().mkString)

結果

(1,2)(2,4)(3,6)(4,8)(5,10)(6,12)(7,14)(8,16)(9,18)

使用mapPartitions

val a = sc.parallelize(1 to 9, 3)
  def doubleFunc(iter: Iterator[Int]) : Iterator[(Int,Int)] = {
    var res = List[(Int,Int)]()
    while 
 (iter.hasNext)
    {
      val cur = iter.next;
      res .::= (cur,cur*2)
    }
    res.iterator
  }
val result = a.mapPartitions(doubleFunc)
println(result.collect().mkString)

結果

(3,6)(2,4)(1,2)(6,12)(5,10)(4,8)(9,18)(8,16)(7,14)

spark小技巧－mapPartitions

與map方法類似，map是對rdd中的每一個元素進行操作，而mapPartitions(foreachPartition)則是對rdd中的每個分割槽的迭代器進行操作。如果在map過程中需要頻繁建立額外的物件(例如將rdd中的資料通過jdbc寫入資料庫,map需要

Vim 小技巧－刪除行末空格

在編寫程式碼時，我們時常一不留神就在行末多打了幾個空格。卻又看不出來，即使用 vim-airline 之類的外掛能知道有行末空格（trailing spaces），刪除起來也特別麻煩。本文就介紹一個我就常用的 vim 快捷鍵：刪除行末空格。功能實現 Vim 並沒有內建的支援，所以我們有正則表示式替換來實現這

Spark小技巧之pivot

最近在用spark處理資料的時候，遇到了這樣一種需求：我想統計每個城市在工作日和週末早高峰、晚高峰、夜高峰和普通時間段的訂單數，並且早高峰、晚高峰、夜高峰和普通時間段分別佔一列。原始檔案CSV檔案的內容如下圖所示：peak_type代表時間段，其中morning_peak代表

Android之小技巧－ Fragment監聽返回鍵

使用場景在一個Fragment中按下返回鍵，先判斷下PopupWindow是否顯示，若顯示，隱藏PopupWindow，否則，執行系統的返回事件。程式碼示例 @Override public void onResume() { super.onResu

SQL小技巧－關聯表重複資料清除處理辦法

一、背景描述資料庫有訂單表和訂單明細表兩張表，訂單表與訂單明細表的關係為一對多，通過訂單ID作為外來鍵進行關聯，訂單表的訂單號欄位本應設計成唯一約束，但由於資料庫約束未在表裡體現，並且由於業務操作的一些原因，導致訂單表裡出現重複的訂單號，並且這些訂單記錄下面都關聯了貨

總結自己使用shell命令行經常使用到的8個小技巧

技巧 span get ash lan host tab localhost 沒有原創blog，轉載請註明出處 Shell是命令解釋器 [[email protected]/* */ ~]# cat /etc/shells 查看本系統共支持哪些shel

胡扯一點代碼實現小技巧啦啦啦~ x

cnblogs ++ 利用喜歡代碼實現 ron 等價 -s size 一. for(int t=m; t; t--) a[++n] = b[t]; // 循環中間的 t：非零即真，遇到 t=0 才停下 int ans(0); // 效果等價於 ans=0

數組值去重-小技巧

!= 獲取 key 鍵值 () 小技巧 == 利用 tmp 把值存為數組的鍵,利用鍵的特性來進行對值的去重,然後再用array_keys獲取鍵值保存為新的數組即可達到去重的效果 $tmp_arr = array(); foreach ($key as $val) { $t

最強 Android Studio 使用小技巧和快捷鍵

面板 panel 讓其駝峰展示 tab鍵所在最有初始常用技巧 1. 書簽（Bookmarks）描述：這是一個很有用的功能，讓你可以在某處做個標記（書簽），方便後面再跳轉到此處。調用：Menu → Navigate → Bookmarks 快捷鍵：添

不為人知的python request小技巧

python request關於 Python requests ，在使用中，總結了一些小技巧把，記錄下。1：保持請求之間的Cookies，我們可以這樣做。2：請求時，會加上headers，一般我們會寫成這樣唯一不便的是之後的代碼每次都需要這麽寫，代碼顯得臃腫，所以我們可以這樣:3：默認requests請求失

Liferay 7 OSGi的一些小技巧

liferay packages res ges shell portlet 依賴 include log 如果部署一個portlet到Liferay上，編譯沒有出現任何錯誤，卻提示有沒有解決的依賴，可能出現的問題是，我們這個portlet所需要的這個jar包在這個OSGi

python小技巧--通過字典的值（value）求鍵（key）

python key dict 思路：通過遍歷字典將key ==> vlaue 取出來，將值進行比較，從而獲得key。d = {‘a‘:1, ‘b‘:2, ‘c‘:123, ‘d‘:‘hello world‘} for k,v in d.items(): if v == ‘hell

php實用小技巧【持續更新】

匹配一個 png 實用合並如果更新 1-1 字符串這是本人開始做項目的時候遇到過的問題還有解決方法 1.eval函數　　能把字符串轉換成可執行的php代碼，如果字符串不是可執行的php代碼的話，需要在前面加上@，屏蔽notice 2.array_merge函數

sql 之優化小技巧

小技巧存儲過程 count aid uic 不返回 .com 網絡通信計數 SET NOCOUNT ON :不返回計數，如果存儲過程中包含一些並不返回實際數據的語句，網絡通信流量便會大量減少，可以顯著提高應用程序性能；sql 之優化小技巧

小技巧：怎樣以另外的Windows用戶執行SSMS

col run fonts diff jsb 使用 nts avi str 可能會碰到這種問題。你須要在一臺機器上面使用不同的Windows賬戶連接到SQL Server做測試。默認情況下，你須要用不同的Windows賬戶登錄然後測試。實際上不須要每一個windows登

五十個小技巧提高PHP執行效率(一)

雙引號超時而不是也會 per 遠程設置作用我們在項目開發過程中，經常遇到了一些PHP處理程序性能底下的情況，程序運行在centos+nginx環境，雖然這個有很多的原因如：服務器本身配置，運行環境nginx服務，php-fpm配置等等，更多有一點仍然是PHPe

EasyUi 小技巧

動態 appendto ons ret mbo value opened div ext 擴展datagrid:動態添加刪除editor //擴展datagrid:動態添加刪除editor jQuery.extend(jQuery.fn.data

浮動小技巧

bfc overflow:hidden 浮動給我們帶來了便利，同時它也有一部分的缺點1、浮動後盒子的高度為0解決辦法：BFC我們給他的父級元素一個overflow：hidden；會激活BFC，高度會自動計算到裏面。當然，也有其他的辦法解決，比如：清除浮動，在這裏我只記錄了我最近用的這種方法。2、頁面縮

Linux Shell 腳本的小技巧——不定期更新

小技巧 linux shell 本文旨在積累平時寫 shell 腳本是遇到的小問題的解決方法。在這裏不定期的更新，以便以後查閱、沿用。一，在shell 腳本中定義默認值 1. 對默認變量直接賦值 read -p "input>>:" nub nub=

Linux下通過find命令進行rm文件刪除的小技巧

ase test sysconfig ger sdn tun 執行過程 fun alt 我們常常會通過find命令進行批量操作。如：批量刪除舊文件、批量改動、基於時間的文件統計、基於文件大小的文件統計等。在這些操作其中，因為rm刪除操作會導致文件夾結構變化，

spark小技巧－mapPartitions

Demo

使用map

使用mapPartitions

相關推薦