1. 程式人生 > >spark學習總結第一天

spark學習總結第一天

1.啟動spark中python版本的shell,進入到spark的bin目錄下——./pyspark

2.設定spark的日誌輸出等級,進入spark目錄下的conf資料夾,在log4j.properties檔案中設定log4j.rootCategory=INFO,console,其中console代表控制檯輸出。

3.關閉spark程式可以用sparkContext.stop()或者直接退出程式。

4.將外部檔案匯入為rdd。javaRDD rdd=sc.textFile("檔案地址")4.2在驅動器程式中將列表、陣列作為rdd的資料。javaRDD rdd=sc.parallelize(Array.asList("1","2"))

5.filter轉化操作,輸入一個值,經過boolean型別的表示式判斷,如果判斷符合,將根據表示式返回結果。

6.union轉化操作是將兩個rdd連線在一起,重新組成一個rdd。

7.spark有一個譜系圖記錄著每個rdd之間的依賴關係,可以用這個譜系圖來執行rdd的資料的恢復,也可以按需計算需要的rdd,因為rdd是惰性計算。到行動操作的時候才會進行正真的計算操作。

8.標準java函式介面:Function<T,R>輸入一個值,返回一個值(多用於filter和map等方法)

                                 Function2<T,T,R>輸入兩個值,返回一個值

                                 flatMapFunction<T,R>一個輸入值,多個返回值。

9.map()和filter()轉化操作後接受一個函式,map將作用於每一個元素,並返回每一個元素,filter將每個元素用於boolean表示式,符合表示式的元素則返回,反之。

10.faltMap()用於每個元素上,一個輸入值,返回多個輸出值的迭代器,輸出rdd中的元素不是由迭代器組成的,而是由迭代器中的元素組成的,這是由於此方法執行了扁平化處理。

11.rdd的distinct()方法用於將一個rdd中的重複元素去除,只保留一份元素,因為此操作會通過網路將資料進行混洗,因此消耗巨大。

12

相關推薦

spark學習總結第一

1.啟動spark中python版本的shell,進入到spark的bin目錄下——./pyspark2.設定spark的日誌輸出等級,進入spark目錄下的conf資料夾,在log4j.properties檔案中設定log4j.rootCategory=INFO,conso

javascript 學習總結 第一

javascript 學習總結javascript 基礎知識一.javascript的特點瀏覽器腳本語言,可以跟html代碼進行混排跨平臺性能優越,可以再windows.linux上進行編寫安全性好兼容性好二.javascrpt 有三大學習目標特效表單驗證ajax三.javascript 基礎語法javasc

js基礎學習總結第一

js第一天javascript是web頁面的腳本語言嵌套在所有html頁面輕量級的嵌套在所有html頁面 div+css<scrip type="text/javascript">alter(xss);</script>js組成:標準 DOM BOM標準:語法的標準(變量和數據類型 運

學習php第一

出了 進度 如何 但是 學習php 認識 筆記 交流 一個   今天開始學習php了,整體上來說先理清楚需要如何學習,今天主要看了w3c上的php文檔,對於php算是有個最初的認識了,下一步準備開始從視頻教程開始入門,很早以前就整理出了學習資料也該開始學習了。有之前學習js

javascript 學習總結第二

javascript 第二天 javascript 學習總結第二天函數和對象 對象 聲明方式 newObject() {} 構造函數 元素的操作 . [] this 對象的遍歷

java學習日記第一

string類型 java學習 程序 類型變量 .cn {} 網上 oat ... java 學習日記 第一天 java學習準備工作 首先環境配置:一個是jdk安裝,另一個編譯工具 eclipse ,安裝下載教程網上很多 找了一個照著做就行 ; 上述步驟完成,我們就可以打

vue學習筆記第一-vue.js簡易留言板

fad ima con targe right 彈出框 n) ade ack <!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8"> &l

初學Jmeter的摘抄學習總結----------第一次試水badboy錄制並用jmeter打開

結束 希望 log png 我只 直接 初學 查看 adb 哈哈哈哈哈,跟著我的初學者福音學習遇到了問題,蠢笨如我,badboy錄了個亂七八糟的腳本然後用jmeter打開跟博主的頁面怎麽也對不上,尷尬,然後重新百度了一下badboy怎麽錄制腳本,因為只想簡單掌握,所以bad

Python 3 學習第一——Python基礎

不兼容 del 以及 ont 空格 p s 依然 操作 所有   Python 學習的第一天 寫此博客 是為了激勵自己,並且將自己的心得以及遇到的問題與人分享 一、課堂筆記 1.Python 3.0 和 Python 2.0 不兼容 Python 2.6 和 Pytho

C語言學習第一

項目 align getchar include 下載安裝 類型 reg 程序 nbsp 1、工具和資源   Visual Studio 2017社區免費版,使用Visual Studio Installer下載安裝,安裝完成點擊修改,安裝C++桌面模塊。   根據C Pr

Spark學習第一個程序打包、提交任務到集群

4.4.2 2.6.0 reat apach import chmod 程序 rsa cas 1、免秘鑰登錄配置: ssh-keygen cd .ssh touch authorized_keys cat id_rsa.pub > authorized_keys ch

Linux學習第一: 運維的職責

計算機的硬件組成運維的職責: 1.保障數據不丟失 2.確保服務7*24小時的不間斷高效運行 3.優化服務器使得用戶訪問服務器所用時間更短 服務器是什麽? ![](http://i2.51cto.com/images/blog/201803/25/

學習Python第一

中文 CA 朋友 分類 不能 需要 問題 如果 計算機 今天是系統學習python的第一天,了解了語言的發展,主要分為三個階段,機器語言--->匯編語言--->高級語言。   機器語言:是能讓計算機識別的語言,主要表現形式為‘0000’,‘0001’等,屬於低級

<CPP學習>第一 第一個CPP程序 hello word

基礎上 iostream 強調 進度 自學 col 消息 擴展 return   由於我是計算機類嵌入式專業的大一學生,之前一直使用的是生萬物的C語言,了解了其過程性語言的特性及其基礎語法,在大一下學期期末階段想自學一下C++,其實在開學初就買了一本C++ Primer,

JAVA學習筆記第一---四種訪問許可權修飾符

  public protected 空的(deault) private 同一類中 √ √ √ √ 同一包中(子類與無關類) √

Linux學習筆記第一

Linux 版本 核心版 Linus Torvalds 負責維護虛擬化: Docker K8s openstark KVM = workstation Linux 版本 發行套件版本 Redhat RHEL (紅帽企業系統)CentOS 社群企業 作業系統 Fedora 試驗田 OpenSuse

spark調優-第一

         廣大的部落格友們,你們好,在這個剛過完冬至的第一個週末,下班了坐在電腦前對著電腦想了想最近做的專案,spark實時統計分析,真的非常累,做專案的時候不是你把程式碼寫完了就可以了,還要做優化的,讓程式跑的

JAVA學習筆記第一~軟體開發、JAVA語言環境的搭建、臨時配置環境變數

軟體開發 系統軟體 DOS WINDOS LINUX等 應用軟體 掃雷 迅雷等 開發:製作軟體 人機互動:圖形化介面      命令列方式 JAVA: javeEE  javaSE javaME 跨平臺性(JVM) 首選Java語言&n

python3學習筆記第一

a.python基礎 -基礎 1.第一句python -print('hello world!') --字尾名可以是任意,大師匯入模組式,如果不是.py可能會出錯 -檔案字尾名是.py 2.兩種執行方式 python直譯器 py檔案路徑 python 進入直譯器:實時輸入並獲取結果 3.解釋路徑 檔案內部#!

前端學習第一

前端基礎學習的第一天 2018.11.20 前端:面向使用者的介面及邏輯相關開發,程式碼一般在瀏覽器中執行(雲到端) 後端:針對伺服器的開發,程式碼一般在伺服器執行 前端可做傳統網站、webapp(手機網站)、遊戲、PC軟體、原生APP等 全站工程師可以實現前端後端的核心技術 ①React