Spark學習進度2

阿新 • • 發佈：2021-01-19

入門

第一個應用的執行

進入 Spark 安裝目錄中
```
cd /export/servers/spark/
```

執行 Spark 示例任務

bin/spark-submit \
--class org.apache.spark.examples.SparkPi \
--master spark://node01:7077,node02:7077,node03:7077 \
--executor-memory 1G \
--total-executor-cores 2 \
/export/servers/spark/examples/jars/spark-examples_2.11-2.2.3.jar \
100

執行結果
```
Pi is roughly 3.141550671141551
 
```

編寫 Spark 程式

Spark shell

Spark shell 是 Spark 提供的一個基於 Scala 語言的互動式直譯器, 類似於 Scala 提供的互動式直譯器, Spark shell 也可以直接在 Shell 中編寫程式碼執行

啟動 Spark shell

進入到spark安裝目錄spark-shell --master master 就可以提交Spark 任務

master配置

地址	解釋
`local[N]`	使用 N 條 Worker 執行緒在本地執行
`spark://host:port`	在 Spark standalone 中執行, 指定 Spark 叢集的 Master 地址, 埠預設為 7077
`mesos://host:port`	在 Apache Mesos 中執行, 指定 Mesos 的地址
`yarn`	在 Yarn 中執行, Yarn 的地址由環境變數 `HADOOP_CONF_DIR` 來指定

測試
- 建立檔案
- 啟動spark-shell
- 執行程式碼

Spark shell 的原理是把每一行 Scala 程式碼編譯成類, 最終交由 Spark 執行

Spark-submit

Spark submit 是一個命令, 用於提交 Scala 編寫的基於 Spark 框架, 這種提交方式常用作於在叢集中執行任務

讀取 HDFS 上的檔案

上傳檔案到hdfs

cd /export/data
hdfs dfs -mkdir /dataset
hdfs dfs -put wordcount.txt /dataset/

在Spark shell中訪問hdfs

val sourceRdd = sc.textFile("hdfs://node01:8020/dataset/wordcount.txt")
val flattenCountRdd = sourceRdd.flatMap(_.split(" ")).map((_, 1))
val aggCountRdd = flattenCountRdd.reduceByKey(_ + _)
val result = aggCountRdd.collect

Spark學習進度2

入門第一個應用的執行進入 Spark 安裝目錄中 cd /export/servers/spark/ 執行 Spark 示例任務

spark學習進度05（RDD概念、程式碼、三種建立方式）

一、RDD概念 1、RDD在哪裡： 2、RDD是什麼：是一個容錯的, 並行的資料結構, 可以讓使用者顯式地將資料儲存到磁碟和記憶體中, 並能控制資料的分割槽.RDD 作為資料結構, 本質上是一個只讀的分割槽記錄集合. 一個

spark學習進度06（RDD的Map運算元、FlatMap運算元、ReduceByKey運算元）

一、Map運算元：作用把 RDD 中的資料一對一的轉為另一種形式呼叫 def map[U: ClassTag](f: T ⇒ U): RDD[U]

spark學習進度11（RDD分割槽和我shuffle以及快取）

一、RDD的分割槽和Shuffle 目標 RDD 的分割槽操作 Shuffle 的原理分割槽的作用 RDD 使用分割槽來分散式並行處理資料, 並且要做到儘量少的在不同的 Executor 之間使用網路交換資料, 所以當使用 RDD 讀取資

spark學習進度12（RDD的Checkpoint）

1. Checkpoint 目標 Checkpoint 的作用 Checkpoint 的使用、 1.1. Checkpoint 的作用 Checkpoint 的主要作用是斬斷 RDD 的依賴鏈, 並且將資料儲存在可靠的儲存引擎中, 例如支援分散式儲存和副本機制

spark學習進度13（spark和高階特效）

　　　　這一節基本上全是概念：：：更新的幾種寫法：部署：邏輯：其實 RDD 並沒有什麼嚴格的邏輯執行圖和物理執行圖的概念, 這裡也只是借用這個概念, 從而讓整個 RDD 的原理可以解釋, 好理解.

spark學習進度17（Catalyst優化器、dataset介紹、dataframe介紹）

RDD 和 SparkSQL 執行時的區別 RDD的執行流程大致執行步驟先將RDD解析為由Stage組成的DAG, 後將Stage轉為Task直接執行

spark學習進度26（spark sql程式設計初級實踐）

Spark SQL 基本操作：將下列 JSON 格式資料複製到 Linux 系統中，並儲存命名為 employee.json。

科學計算與matlab學習進度2

本月所學如下 1：MATLAB基本計算：算術運算關係運算邏輯運算（1）基本算術運算基本算術運算子：＋(加)、－(減)、*(乘)、/(右除)、\\(左除)、 ^(乘方)。 MATLAB的算術運算是在矩陣意義下進行的。單個數據的算術

寒假學習進度2

今天接著昨天spark學習使用spark自己自帶的函式完成對文字中的單詞統計，昨天程式碼的進階版

Java 解決構造方法引數過多-builder模式（effect java 學習筆記2）

一、前景：一般情況我們不會遇到這樣的情況，使用靜態工廠方法，或者構造方法就足夠。但是它們也有一個限制就是，它們不能很好的擴充套件到很多可選引數的場景。隨著我們業務的深入，某些java bean

Spark學習筆記（二）Spark2.3 HA叢集的分散式安裝圖文詳解

本文例項講述了Spark2.3 HA叢集的分散式安裝。分享給大家供大家參考，具體如下：

Spark學習筆記（一）Spark初識【特性、組成、應用】

本文例項講述了Spark基本特性、組成、應用。分享給大家供大家參考，具體如下：

在WIN上使用TORCS模擬器做深度強化學習（2）

當你在win上下載安裝好TORCS和patch之後（如果不會請翻看之前的文章），你可以點選安裝目錄中的wtorcs.exe來啟動客戶端

Spark學習筆記（三）-Spark Streaming

Spark Streaming支援實時資料流的可擴充套件（scalable）、高吞吐（high-throughput）、容錯（fault-tolerant）的流處理（stream processing）。

UiAutomator原始碼學習（2）-- UiAutomationBridge

從上一章對UiDevice的學習，可以看出幾乎所有的操作都離不開UiAutomationBridge。重新看一下UIDevice的構造方法：

第三天學習進度--文字情感分類（二）

昨天在情感處理的學習中瞭解到了關於word2vec的用法，今天我們繼續康康doc2vec究竟在情感分類的過程中是如何使用的。

第五天學習進度--(KBQA)初接觸知識圖譜之靜態知識提取（二）

昨天學習到對應的知識圖譜在networkx的構建，在此先前的程式碼上，新增一部分的程式碼，用來完成靜態知識的提取。

第六天學習進度--(KBQA)初接觸知識圖譜之動態知識提取（三）

昨天通過networkx自己構建了一個簡單的知識圖譜，但是遇到了一個問題，就是昨天構建的知識網路只適用於靜態的知識提取，相對應的那種動態的知識需要額外進行一個設定。今天就學習如何提取動態的知識並將其新增到對應

Spark學習（二）win10部署Hadoop+Spark

1.Hadoop （1）安裝配置基礎只需要配置core-site.xml和hdfs-site.xml就行。參考： https://www.jianshu.com/p/aa8cfaa26790【這個教程的core-site.xml和hdfs-site.xml的內容弄反了，交換一下就行】