1. 程式人生 > >Spark基礎知識

Spark基礎知識

Spark為什麼比Hadoop快?

1、Spark基於記憶體 Spark預設情況下將處理過程中的資料儲存在記憶體中,而Hadoop的計算結果每次都儲存到磁碟,增加了I/O讀寫的時間。這也導致在迭代計算時Spark速度愈發快於Hadoop。 2、Spark基於DAG Spark的執行任務事先已經通過DAG規劃,任務管理更加精細化。 3、移動計算而非移動資料 RDD的partitions就近讀取節點上的資料進行計算。

Spark的執行模式

1、本地模式 2、Standalone 3、第三方資源排程框架(Yarn、Mesos)

生成DataFrame的方式

1、從RDD轉換為DataFrame (1)某一類的RDD轉換為DataFrame val df = class_rdd.toDF (2)結構化的RDD轉換為DataFrame val df = sparkSession.createDataFrame(row_rdd,schema) 2、從檔案讀取 (1)parquet檔案 spark.read.load(path) (2)json檔案 spark.read.json(path)