spark學習總結第一天
1.啟動spark中python版本的shell,進入到spark的bin目錄下——./pyspark
2.設定spark的日誌輸出等級,進入spark目錄下的conf資料夾,在log4j.properties檔案中設定log4j.rootCategory=INFO,console,其中console代表控制檯輸出。
3.關閉spark程式可以用sparkContext.stop()或者直接退出程式。
4.將外部檔案匯入為rdd。javaRDD rdd=sc.textFile("檔案地址")4.2在驅動器程式中將列表、陣列作為rdd的資料。javaRDD rdd=sc.parallelize(Array.asList("1","2"))
5.filter轉化操作,輸入一個值,經過boolean型別的表示式判斷,如果判斷符合,將根據表示式返回結果。
6.union轉化操作是將兩個rdd連線在一起,重新組成一個rdd。
7.spark有一個譜系圖記錄著每個rdd之間的依賴關係,可以用這個譜系圖來執行rdd的資料的恢復,也可以按需計算需要的rdd,因為rdd是惰性計算。到行動操作的時候才會進行正真的計算操作。
8.標準java函式介面:Function<T,R>輸入一個值,返回一個值(多用於filter和map等方法)
Function2<T,T,R>輸入兩個值,返回一個值
flatMapFunction<T,R>一個輸入值,多個返回值。
9.map()和filter()轉化操作後接受一個函式,map將作用於每一個元素,並返回每一個元素,filter將每個元素用於boolean表示式,符合表示式的元素則返回,反之。
10.faltMap()用於每個元素上,一個輸入值,返回多個輸出值的迭代器,輸出rdd中的元素不是由迭代器組成的,而是由迭代器中的元素組成的,這是由於此方法執行了扁平化處理。
11.rdd的distinct()方法用於將一個rdd中的重複元素去除,只保留一份元素,因為此操作會通過網路將資料進行混洗,因此消耗巨大。
12
相關推薦
spark學習總結第一天
1.啟動spark中python版本的shell,進入到spark的bin目錄下——./pyspark2.設定spark的日誌輸出等級,進入spark目錄下的conf資料夾,在log4j.properties檔案中設定log4j.rootCategory=INFO,conso
javascript 學習總結 第一天
javascript 學習總結javascript 基礎知識一.javascript的特點瀏覽器腳本語言,可以跟html代碼進行混排跨平臺性能優越,可以再windows.linux上進行編寫安全性好兼容性好二.javascrpt 有三大學習目標特效表單驗證ajax三.javascript 基礎語法javasc
js基礎學習總結第一天
js第一天javascript是web頁面的腳本語言嵌套在所有html頁面輕量級的嵌套在所有html頁面 div+css<scrip type="text/javascript">alter(xss);</script>js組成:標準 DOM BOM標準:語法的標準(變量和數據類型 運
學習php第一天
出了 進度 如何 但是 學習php 認識 筆記 交流 一個 今天開始學習php了,整體上來說先理清楚需要如何學習,今天主要看了w3c上的php文檔,對於php算是有個最初的認識了,下一步準備開始從視頻教程開始入門,很早以前就整理出了學習資料也該開始學習了。有之前學習js
javascript 學習總結第二天
javascript 第二天 javascript 學習總結第二天函數和對象 對象 聲明方式 newObject() {} 構造函數 元素的操作 . [] this 對象的遍歷
java學習日記第一天
string類型 java學習 程序 類型變量 .cn {} 網上 oat ... java 學習日記 第一天 java學習準備工作 首先環境配置:一個是jdk安裝,另一個編譯工具 eclipse ,安裝下載教程網上很多 找了一個照著做就行 ; 上述步驟完成,我們就可以打
vue學習筆記第一天-vue.js簡易留言板
fad ima con targe right 彈出框 n) ade ack <!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8"> &l
初學Jmeter的摘抄學習總結----------第一次試水badboy錄制並用jmeter打開
結束 希望 log png 我只 直接 初學 查看 adb 哈哈哈哈哈,跟著我的初學者福音學習遇到了問題,蠢笨如我,badboy錄了個亂七八糟的腳本然後用jmeter打開跟博主的頁面怎麽也對不上,尷尬,然後重新百度了一下badboy怎麽錄制腳本,因為只想簡單掌握,所以bad
Python 3 學習的第一天——Python基礎
不兼容 del 以及 ont 空格 p s 依然 操作 所有 Python 學習的第一天 寫此博客 是為了激勵自己,並且將自己的心得以及遇到的問題與人分享 一、課堂筆記 1.Python 3.0 和 Python 2.0 不兼容 Python 2.6 和 Pytho
C語言學習(第一天)
項目 align getchar include 下載安裝 類型 reg 程序 nbsp 1、工具和資源 Visual Studio 2017社區免費版,使用Visual Studio Installer下載安裝,安裝完成點擊修改,安裝C++桌面模塊。 根據C Pr
Spark學習之第一個程序打包、提交任務到集群
4.4.2 2.6.0 reat apach import chmod 程序 rsa cas 1、免秘鑰登錄配置: ssh-keygen cd .ssh touch authorized_keys cat id_rsa.pub > authorized_keys ch
Linux學習之第一天: 運維的職責
計算機的硬件組成運維的職責: 1.保障數據不丟失 2.確保服務7*24小時的不間斷高效運行 3.優化服務器使得用戶訪問服務器所用時間更短 服務器是什麽? ![](http://i2.51cto.com/images/blog/201803/25/
學習Python第一天
中文 CA 朋友 分類 不能 需要 問題 如果 計算機 今天是系統學習python的第一天,了解了語言的發展,主要分為三個階段,機器語言--->匯編語言--->高級語言。 機器語言:是能讓計算機識別的語言,主要表現形式為‘0000’,‘0001’等,屬於低級
<CPP學習>第一天 第一個CPP程序 hello word
基礎上 iostream 強調 進度 自學 col 消息 擴展 return 由於我是計算機類嵌入式專業的大一學生,之前一直使用的是生萬物的C語言,了解了其過程性語言的特性及其基礎語法,在大一下學期期末階段想自學一下C++,其實在開學初就買了一本C++ Primer,
JAVA學習筆記第一天---四種訪問許可權修飾符
public protected 空的(deault) private 同一類中 √ √ √ √ 同一包中(子類與無關類) √
Linux學習筆記第一天
Linux 版本核心版 Linus Torvalds 負責維護虛擬化: Docker K8s openstark KVM = workstation Linux 版本 發行套件版本 Redhat RHEL (紅帽企業系統)CentOS 社群企業 作業系統 Fedora 試驗田 OpenSuse
spark調優-第一天
廣大的部落格友們,你們好,在這個剛過完冬至的第一個週末,下班了坐在電腦前對著電腦想了想最近做的專案,spark實時統計分析,真的非常累,做專案的時候不是你把程式碼寫完了就可以了,還要做優化的,讓程式跑的
JAVA學習筆記第一天~軟體開發、JAVA語言環境的搭建、臨時配置環境變數
軟體開發 系統軟體 DOS WINDOS LINUX等 應用軟體 掃雷 迅雷等 開發:製作軟體 人機互動:圖形化介面 命令列方式 JAVA: javeEE javaSE javaME 跨平臺性(JVM) 首選Java語言&n
python3學習筆記第一天
a.python基礎 -基礎 1.第一句python -print('hello world!') --字尾名可以是任意,大師匯入模組式,如果不是.py可能會出錯 -檔案字尾名是.py 2.兩種執行方式 python直譯器 py檔案路徑 python 進入直譯器:實時輸入並獲取結果 3.解釋路徑 檔案內部#!
前端學習的第一天
前端基礎學習的第一天 2018.11.20 前端:面向使用者的介面及邏輯相關開發,程式碼一般在瀏覽器中執行(雲到端) 後端:針對伺服器的開發,程式碼一般在伺服器執行 前端可做傳統網站、webapp(手機網站)、遊戲、PC軟體、原生APP等 全站工程師可以實現前端後端的核心技術 ①React