1. 程式人生 > >spark collect driver端操作

spark collect driver端操作

collect:將分散式儲存在叢集上的分散式資料集(比如dataset),中的所有資料都獲取到driver端

employee.collect().foreach { println(_) }  

foreach:遍歷資料集中的每一條資料,對資料進行操作,這個跟collect不同,
collect是將資料獲取到driver端進行操作

foreach是將計算操作推到叢集上去分散式執行

foreach(println(_))這種,真正在叢集中執行的時候,是沒用的,因為輸出的結果是在分散式的叢集中的,我們是看不到的
//補原始碼分析