Spark之常用操作

阿新 • • 發佈：2018-01-09

兩個 lis lte div nta group tin 類型 park

-- 篩選
val rdd = sc.parallelize(List("ABC","BCD","DEF")) 
val filtered = rdd.filter(_.contains("C")) 
filtered.collect() 
Result:
Array[String] = Array(ABC, BCD)
-- 相乘
val rdd=sc.parallelize(List(1,2,3,4,5)) 
val times2 = rdd.map(_*2) 
times2.collect() 
Result: 
Array[Int] = Array(2, 4, 6, 8, 10)
-- 分割 

val rdd=sc.parallelize(List("Spark is awesome","It is fun")) 
val fm=rdd.flatMap(str=>str.split(" ")) 
fm.collect() 
Result: 
Array[String] = Array(Spark, is, awesome, It, is, fun)
-- 頻數
val word1=fm.map(word=>(word,1)) 
val wrdCnt=word1.reduceByKey(_+_) 
wrdCnt.collect() 
Result: 
Array[(String, Int) 
] = Array((is,2), (It,1), (awesome,1), (Spark,1), (fun,1))
-- 交換
val cntWrd = wrdCnt.map{case (word, count) => (count, word)} 
cntWrd.groupByKey().collect() 
Result: 
Array[(Int, Iterable[String])] = Array((1,ArrayBuffer(It, awesome, Spark, fun)), (2,ArrayBuffer(is)))
-- 排重
fm.distinct().collect() 
Result: 
Array 
[String] = Array(is, It, awesome, Spark, fun)
-- 並集
val rdd1=sc.parallelize(List(‘A‘,‘B‘)) 
val rdd2=sc.parallelize(List(‘B‘,‘C‘)) 
rdd1.union(rdd2).collect() 
-- 交集
rdd1.intersection(rdd2).collect()
-- 笛卡爾積
rdd1.cartesian(rdd2).collect()
-- 相減 
rdd1.subtract(rdd2).collect()
-- 連接
val personFruit = sc.parallelize(Seq(("Andy", "Apple"), ("Bob", "Banana"), ("Charlie", "Cherry"), ("Andy","Apricot"))) 
val personSE = sc.parallelize(Seq(("Andy", "Google"), ("Bob", "Bing"), ("Charlie", "Yahoo"), ("Bob","AltaVista"))) 
personFruit.join(personSE).collect() 
Result: 
Array[(String, (String, String))] = Array((Andy,(Apple,Google)), (Andy,(Apricot,Google)), (Charlie,(Cherry,Yahoo)), (Bob,(Banana,Bing)), (Bob,(Banana,AltaVista)))
-- 計數
val rdd = sc.parallelize(list(‘A‘,‘B‘,‘c‘)) 
rdd.count() 
Result: 
long = 3
-- 展示數組
val rdd = sc.parallelize(list(‘A‘,‘B‘,‘c‘)) 
rdd.collect() 
Result: 
Array[char] = Array(A, B, c)
-- 求和
val rdd = sc.parallelize(list(1,2,3,4)) 
rdd.reduce(_+_) 
Result: 
Int = 10
-- 截取
val rdd = sc.parallelize(list(1,2,3,4)) 
rdd.take(2) 
Result: 
Array[Int] = Array(1, 2)
-- 分別格式化
val rdd = sc.parallelize(list(1,2,3,4)) 
rdd.foreach(x=>println("%s*10=%s".format(x,x*10))) Result: 
1*10=10 4*10=40 3*10=30 2*10=20
val rdd = sc.parallelize(list(1,2,3,4)) 
-- 首項
rdd.first() 
Result: 
Int = 1
-- 另存為
val hamlet = sc.textFile("/users/akuntamukkala/temp/gutenburg.txt")

-- 針對兩個pair RDD的轉化操作（rdd = {(1, 2), (3, 4), (3, 6)}  other = {(3, 9)}）

-- subtractByKey 刪掉RDD 中鍵與other RDD 中的鍵相同的元素
rdd.subtractByKey(other) {(1, 2)}

-- join 對兩個RDD 進行內連接
rdd.join(other) {(3, (4, 9)), (3,(6, 9))}

-- rightOuterJoin 對兩個RDD 進行連接操作，確保第一個RDD 的鍵必須存在（右外連接）
rdd.rightOuterJoin(other) {(3,(Some(4),9)),(3,(Some(6),9))}

-- leftOuterJoin 對兩個RDD 進行連接操作，確保第二個RDD 的鍵必須存在（左外連接）
rdd.leftOuterJoin(other) {(1,(2,None)), (3,(4,Some(9))), (3,(6,Some(9)))}

-- cogroup 將兩個RDD 中擁有相同鍵的數據分組到一起
rdd.cogroup(other) {(1,([2],[])), (3,([4, 6],[9]))}

-- 返回RDD 中的所有元素
rdd.collect() {1, 2, 3, 3}

-- RDD 中的元素個數
rdd.count() 4

-- 各元素在RDD 中出現的次數
rdd.countByValue() {(1, 1),(2, 1),(3, 2)}

-- 從RDD 中返回num 個元素
rdd.take(2) {1, 2} top(num) 

-- 從RDD 中返回最前面的num個元素
rdd.top(2) {3, 3} 

-- 從RDD 中按照提供的順序返回最前面的num 個元素
rdd.takeOrdered(2)(myOrdering) {3, 3} 

-- 從RDD 中返回任意一些元素
rdd.takeSample(false, 1) 

-- 並行整合RDD 中所有數據（例如sum）
rdd.reduce((x, y) => x + y) 9 

-- 和reduce() 一樣， 但是需要提供初始值
rdd.fold(0)((x, y) => x + y) 9 

-- 和reduce() 相似， 但是通常返回不同類型的函數 
rdd.aggregate((0, 0)) 
((x, y) =>(x._1 + y, x._2 + 1), 
(x, y) =>(x._1 + y._1, x._2 + y._2)) 
(9,4) 
-- 對RDD 中的每個元素使用給定的函數
rdd.foreach(func)

Spark之常用操作

兩個 lis lte div nta group tin 類型 park -- 篩選 val rdd = sc.parallelize(List("ABC","BCD","DEF")) val filtered = rdd.filter(_.contains("C"))

Mysql之常用操作

spa 分享需要 lec select pda 等等查看 nbsp 一、數據庫的相關操作　　1.數據庫的創建 create database 數據庫名　　創建一個名為db的數據庫；　　　　2.查詢數據庫 show databases；　　查詢所有數據庫

spark之join操作

import java.util.Arrays; import java.util.Iterator; import org.apache.spark.SparkConf; import org.apache.spark.api.java.JavaPairRDD; import org.a

vagrant之常用操作

　　基本操作: 　　　　初始化: vagrant init 　　　　啟動虛擬機器: vagrant up 　　　　關閉虛擬機器: vagrant halt 　　　　重啟虛擬機器: vagrant

第二章 Linux基礎之常用操作

這裡介紹的是一些非常基本的命令，在linux管理中經常用到，包括使用者建立、檔案操作、目錄操作、vim文字編輯等等。使用者切換與建立 whoami命令：用於顯示自身使用者名稱稱 [[email protected] ～]# whoami root su

Learning Spark——RDD常用操作

RDD支援兩種操作：轉換（Transformation）操作和行動（Action）操作。為什麼會分為兩種操作，這兩種操作又有什麼區別呢？我們先考慮一下平常我們使用的一些函式，舉個例子Long.toString()，這個轉換是把Long型別的轉換為Stri

spark中的scalaAPI之RDDAPI常用操作

appname 轉換成了 size pre esc atm rgs new package com.XXX import org.apache.spark.storage.StorageLevel import org.apache.spark.{SparkConf,

Spark常用函式講解之Action操作+例項

RDD：彈性分散式資料集，是一種特殊集合 ‚ 支援多種來源 ‚ 有容錯機制 ‚ 可以被快取 ‚ 支援並行操作，一個RDD代表一個分割槽裡的資料集RDD有兩種操作運算元： Transformatio

CentOS 6.9之LVM創建，擴容等常用操作

linux lvm 卷分區擴容在系統安裝時候大多情況下有可能因為考慮不周，導致服務器空間不足問題，這時候如果沒有lvm邏輯卷管理工具的話，往往就是查找服務器大文件刪除之，或者應用遷移。但如果有了lvm邏輯卷管理，只需要新增硬盤，並將新硬盤的空間劃分到不足的分區及可，如果空間浪

Scala 學習筆記之集合(9) 集合常用操作匯總

lis cti ring 結果 ray 常用操作 light logs bject object CollectionDemo10 { def main(args: Array[String]): Unit = { var ls = List[Int](1,

Python學習之day5（一）字符串常用操作命令簡介

堅持就是勝利字符串常用操作命令簡介名字描述舉例.isdigit判斷是否是數字Name=demonlg，print name.isdigit，會打印出False，因為demonlg不是數字.inde

Git常用操作之刪除操作

delete stat chan update 常用 del 進入 code res Git刪除操作有兩種 1.git rm 2.rm 有何不同？ git rm直接包含了add操作。show you the code bocur@DESKTOP-PTRIQEA /d/p

Linux常用操作命令之cat

常用操作命令文本內容電視cat：顯示文本文件使用cat命令可以顯示文本文件的內容，也可以把幾個文件的內容追加到另一個文件中。如果沒有指定文件，或者文件為“-”，那麽就從標準輸入讀取。命令語法： cat [選項] [文件]選項： -n ：對輸出的所有行編號 -b ：

linux零基礎學習之Linux sed 命令常用操作詳解

延伸進行數據 12px -i 空白字符串 options 信息 sed是Linux系統中一個很好的文件處理工具，可以對數據進行替換、刪除、新增以及選取等操作，使用起來也十分方面，以下是全面的sed操作介紹。sed命令行格式：sed [options] 'com

梓益C語言學習筆記之常用鏈表操作函數

C語言鏈表操作梓益C語言學習筆記之常用鏈表操作函數一、創建鏈表void link_creat_head(STU **p_head,STU *p_new){ STU *p_mov=*p_head; if(*p_head==NULL) //當第一次加入鏈表為空時，head執行p_new { *

Java基礎之數組-->>數組常用操作

style val order class print sea 聲明 cell esc 3.2一維數組 3.2.1聲明數組數組類型[] 數組名稱； int [] username; 或者數組類型數組名稱[]; int username[]; 3.

mysql基礎知識之-數據庫的創建、查看等常用操作

nbsp 報錯 mysq del article 文檔 sele 結構 log 命令創建mysql數據庫: 先啟動mysql數據庫，連接數據庫：　　mysql -uroot -p123456 (語法：mysql -u登錄名 -p密碼) 創建表：　　cre

三劍客之sed常用操作

linux sed 行操作 SedSed是一個強大的文本處理工具可以采用正則匹配，對文本進行插入刪除修改等操作Sed處理的時候，一次處理一行，每一次把當前處理的存放在臨時緩沖區，處理完後輸出緩沖區內容到屏幕，然後把下一行讀入緩沖區，如此重復，直到結尾。1、命令格式和參數sed [-nefr] [動

fiddler常用操作之斷點

block -a 頁面 options https nec 萬維網技術分享數字 fiddler常用操作斷點

Linux之vi三種模式常用操作

num 快捷字母內容替換 info tar linux 刪除光標 vi的三種模式：命令模式、編輯模式、尾行模式一.命令模式　　1.光標移動　　　　a、字符級　　　　　　左（h）　　下（j）　　上（k）　　右（l）　　　　b、單詞級　　　　　　w wor

Spark之常用操作

相關推薦