Spark最簡單基礎

阿新 • • 發佈：2018-12-20

Spark筆記

1. flatMap和map的區別

map函式會對每一條輸入進行指定的操作，然後每一條輸入返回一個物件；

flatMap函式則是兩個操作的集合，即先對映再扁平化：

i.同map函式一樣，對每一條輸入進行指定的操作，然後為每一條輸入返回一個物件；

ii.然後將所有物件合併成一個物件。

2. 交集並集

3. 三種join

4. reduceByKey 和 groupByKey 對比

reduceByKey在分發之前做一次運算、分發之後做一次運算。

groupByKey只在分發後做一次運算

也就是說groupByKey主要有有兩點缺點：額外的通訊成本；分發後的同

key記錄堆積可能導致記憶體溢位

那groupByKey 什麼必要存在？

reduceByKey groupByKey 就是兩個運算框架，我們寫業務程式碼的時候，需要的就是修改“運算”法則，框架規定了我們 reduceByKey 分發前後的運算是一樣的。

以上兩點缺點的前提是存在運算：只是收集同key的記錄；需要必須所有資料一起的運算（比如方差）。此時缺點不成立

#WordCount, 第二個效率低

sc.textFile("/root/words.txt").flatMap(line=>line.split(" ")).map(word => (word, 1)).reduceByKey((a, b) => a + b)

sc.textFile("/root/words.txt").flatMap(x=>x.split(" ")).map((_,1)).reduceByKey(_+_).sortBy(_._2,false).collect

sc.textFile("/root/words.txt").flatMap(x=>x.split(" ")).map((_,1)).groupByKey.map(t=>(t._1, t._2.sum)).collect

5. Cogroup

根據key求和

val rdd4 = rdd3.map(t=>(t._1,t._2._1.sum+t._2._2.sum))

6. 笛卡爾積

7. take，top，first，count，takeOrdered

不去重寫錯了

Spark最簡單基礎

Spark筆記 1. flatMap和map的區別 map函式會對每一條輸入進行指定的操作，然後每一條輸入返回一個物件； flatMap函式則是兩個操作的集合，即先對映再扁平化： i.同map函式一樣，對每一條輸入進行指定的操作，然後為每一條輸入返回一個物件； ii.然後將所有物件合併成一個物件。 2. 交集

你所要掌握的最簡單基礎的React渲染優化

一、React的渲染機制要掌握一兩項React-render優化的方法不難,但是非常重要.無論是在實際專案中的一個小細節,還是迎合'面試官'的口味 1.1 觸發Render 我們知道React要更新檢視,必須要觸發Render.而這往往是影響效能最重要的一步(因為操作了dom).而React之所以這麼出色,

從零開始的c語言連結串列學習 001--建立一個最簡單基礎的連結串列

因為各種原因，儘管c語言期末考也拿了八十多分，卻仍然對連結串列處在完全甍逼的狀態，以至於之後的資料結構課聽天書，實驗課做不出來，於是決定重學一波連結串列的知識，特此記錄筆記 001—建立一個簡單的連結串列 1.1 認識連結串列所謂連結串列，一言蔽之就是一連串帶

spark最簡單demo解讀

object AstronTest { def main(args: Array[String]): Unit = { println("hello,astron!") } } obj

神級Java程序員開車教你基礎開發，最簡單微型Java Web框架

padding ont 目的簡單 json 破解 apach java學習 web 介紹：它是Java中的開放源代碼（Apache License）微型Web框架，具有最小的依賴性和快速的學習曲線。該項目的目標是在Java中創建一個易於使用和破解的微型Web框架。

資源分享神技---網絡基礎--最簡單的實驗--詳解

達內雲計算菜鳥上路 1024 前言記得上大學的時候有個學計算機的哥們，叫粟含。曾經他用一根網線見兩臺筆記本連在一起，然後分享資料，當時我聽說此事時覺得好牛X。宿舍裏的胖哥管粟含叫大神，當時我倆自以為習得到此神技，回到宿舍拆了一根網線，然後連接兩個筆記本，整了半天就是不行，感覺這項神技不是我

最簡單的vue入門：基礎語法學習

新建index.html，直接複製以下程式碼，雙擊瀏覽器執行即可。程式碼包含Vue的基礎語法，可對照練習。 <!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8">

王權富貴基礎篇：用numpy做最簡單的單層感知器

上面就是最簡單的單層感知器，由多個輸入，一個輸出。這個是一個完整的流程，做到右是正向傳播，右到左是更新權值。雖然現在有TF,CAFF可以一句話寫出下面這些，不過對於努力提高的同學來說，用基礎程式碼實現基礎功能還是很有意義的。現在開始用numpy搭建網路

資料結構：陣列——最簡單最基礎的資料結構

王爭資料結構筆記（05） 1）線性表： A)連結串列，佇列，棧，數都是線性表 B)每個線性表的資料只有前後兩個方向 2）非線性表： A)二叉樹，堆，圖都是非線性表 B)資料之間不是前後關係 3）陣列支援隨機訪問，根據下標隨機訪問的時間

Spark -- RDD簡單操作【統計文字中單行最大單詞數】

一、什麼是RDD ？ RDD在Spark【Scala語言】中，是一種資料結構【基於記憶體，可持久化】，就好比Java的ArrayList一樣，可以進行各種的Action操作，比如Java中的List集合，可以進行get【獲取元素】、add【增加元

史上最簡單MySQL教程詳解（基礎篇）之多表聯合查詢

常用術語內連線外連線左外連線右外連線注意事項：自連線子查詢在上篇文章史上最簡單MySQL教程詳解（基礎篇）之資料庫設計正規化及應用舉例我們介紹過，在關係型資料庫中，我們通常為了減少資料的冗餘量將對資料表進行規範，將

webpack 最簡單的入門教程（基礎的檔案打包以及實現熱載入）

webpack安裝我們可以用npm安裝webpack，要用npm我們就需要安裝node.js環境，作為我們的平臺。下載node.js 下載好之後安裝，我們在cmd或者GitBashHere中輸入 npm -v node -v 如果出現版本號

SpringMVC最基礎搭建步驟（最簡單）

前言接近年尾，繼續為我的網站作戰。今天記錄一篇關於今天搭建springmvc的文章，關於springmvc的搭建步驟。 springmvc大致流程圖是自己畫的，有總比沒有強。 SpringMVC基礎搭建步驟 1：引入jar包

poj1273-----最大流基礎（最簡單的最大流！--模板題）

題意:下雨的時候約翰的田裡總是積水，積水把他種的三葉草給淹了，他於是做了若干排水溝，每條溝在起始處安置一個閥門來控制這條溝的最大排水量，現在給出溝的條數以及閥門的個數。並給出每條溝的最大排水量。約翰的田裡的積水處是閥門1，排出水的位置是最後一個閥門。求約翰在處理積水時的最大

MyBatis最簡單搭建步驟（最基礎）

前言昨天學習瞭如何搭建SpringMVC以及基本用法，今天就輪到Mybatis的搭建以及基本使用了。一步一步感覺到前進的感覺很不錯！ Mybatis大致流程圖還是自己畫的，有還是比沒有強。 Mybatis基礎搭建步驟（最重要的內容在總結）

Android OpenGL ES2.0基礎（一、最簡單的使用）

一、OpenGL ES是什麼 OpenGL（Open Graphics Library）是一個跨程式語言、跨平臺的3D圖形庫。廣泛應用於遊戲、娛樂、VR等領域.安卓系統中的核心庫層就有這個。OpenGL ES是在OpenGL基礎上針對移動端而裁剪的。Open

Apache Flink 零基礎入門（三）編寫最簡單的helloWorld

實驗環境 JDK 1.8 IDE Intellij idea Flink 1.8.1 實驗內容建立一個Flink簡

ionic 最簡單的路由形式，頭部固定，下面tab切換-------一個簡單的單頁切換起飛了

top log cnblogs .cn inset badge left plus set <ion-header-bar class="bar-dark" align-title="left"> <h1 class="title" >微信 &l

最簡單的基於FFmpeg的AVDevice樣例（讀取攝像頭）

malloc projects == 格式 mac 跨平臺 buffer 版本 span =====================================================最簡單的基於FFmpeg的AVDevice樣例文章列表：最簡單的基於FFmp

最簡單的視音頻播放演示樣例7：SDL2播放RGB/YUV

pro big 更新沒有 opaque support 解決控制 mem =====================================================最簡單的視音頻播放演示樣例系列文章列表：最簡單的視音頻播放演示樣例1：總述最簡單的視音

Spark最簡單基礎

Spark筆記

1. flatMap和map的區別

2. 交集並集

3. 三種join

4. reduceByKey 和 groupByKey 對比

5. Cogroup

6. 笛卡爾積

7. take，top，first，count，takeOrdered

相關推薦