spark複習筆記(2)

阿新 • • 發佈：2018-11-07

　　之前工作的時候經常用，隔了段時間，現在學校要用學的東西也忘了，翻翻書謝謝部落格吧。

　　1.什麼是spark?

Spark是一種快速、通用、可擴充套件的大資料分析引擎，2009年誕生於加州大學伯克利分校AMPLab，2010年開源，2013年6月成為Apache孵化專案，2014年2月成為Apache頂級專案。目前，Spark生態系統已經發展成為一個包含多個子專案的集合，其中包含SparkSQL、Spark Streaming、GraphX、MLlib等子專案，Spark是基於記憶體計算的大資料平行計算框架。Spark基於記憶體計算，提高了在大資料環境下資料處理的實時性，同時保證了高容錯性和高可伸縮性，允許使用者將

Spark部署在大量廉價硬體之上，形成叢集。Spark得到了眾多大資料公司的支援，這些公司包括Hortonworks、IBM、Intel、Cloudera、MapR、Pivotal、百度、阿里、騰訊、京東、攜程、優酷土豆。當前百度的Spark已應用於鳳巢、大搜索、直達號、百度大資料等業務；阿里利用GraphX構建了大規模的圖計算和圖挖掘系統，實現了很多生產系統的推薦演算法；騰訊Spark叢集達到8000臺的規模，是當前已知的世界上最大的Spark叢集。

2為什麼要學Spark

Spark是一個開源的類似於Hadoop MapReduce的通用的平行計算框架，Spark基於map reduce演算法實現的分散式計算，擁有

Hadoop MapReduce所具有的優點；但不同於MapReduce的是Spark中的Job中間輸出和結果可以儲存在記憶體中，從而不再需要讀寫HDFS，因此Spark能更好地適用於資料探勘與機器學習等需要迭代的map reduce的演算法。

Spark是MapReduce的替代方案，而且相容HDFS、Hive，可融入Hadoop的生態系統，以彌補MapReduce的不足。

3 Spark特點

　　1) 快

與Hadoop的MapReduce相比，Spark基於記憶體的運算要快100倍以上，基於硬碟的運算也要快10倍以上。Spark實現了高效的DAG執行引擎，可以通過基於記憶體來高效處理資料流。

　　2)易用

　　Spark支援Java、Python和Scala的API，還支援超過80種高階演算法，使使用者可以快速構建不同的應用。而且Spark支援互動式的Python和Scala的shell，可以非常方便地在這些shell中使用Spark叢集來驗證解決問題的方法。

　　3)通用

　　Spark提供了統一的解決方案。Spark可以用於批處理、互動式查詢（Spark SQL）、實時流處理（Spark Streaming）、機器學習（Spark MLlib）和圖計算（GraphX）。這些不同型別的處理都可以在同一個應用中無縫使用。Spark統一的解決方案非常具有吸引力，畢竟任何公司都想用統一的平臺去處理遇到的問題，減少開發和維護的人力成本和部署平臺的物力成本。

　　4)相容性

　　Spark可以非常方便地與其他的開源產品進行融合。比如，Spark可以使用Hadoop的YARN和Apache Mesos作為它的資源管理和排程器，並且可以處理所有Hadoop支援的資料，包括HDFS、HBase和Cassandra等。這對於已經部署Hadoop叢集的使用者特別重要，因為不需要做任何資料遷移就可以使用Spark的強大處理能力。Spark也可以不依賴於第三方的資源管理和排程器，它實現了Standalone作為其內建的資源管理和排程框架，這樣進一步降低了Spark的使用門檻，使得所有人都可以非常容易地部署和使用Spark。此外，Spark還提供了在EC2上部署Standalone的Spark叢集的工具。

4.spark安裝

　　1)下載spark安裝包

　　下載地址spark官網：http://spark.apache.org/downloads.html這裡我們使用 spark-2.0.2-bin-hadoop2.7版本.

　　2)解壓安裝包

　　tar -zxvf spark-2.0.2-bin-hadoop2.7.tgz -C /soft

　　3)建立軟連線

　　ln -s spark-2.0.2-bin-hadoop2.7.tgz spark

　　4)修改配置檔案

　　　　(1)配置檔案目錄在 /opt/bigdata/spark/conf

　　　　 nano spark-env.sh 修改檔案(先把spark-env.sh.template重新命名為spark-env.sh)

　　　　(2)配置spark環境變數　　　　　

　　　　　　#指定spark老大Master的IP

　　　　　　export SPARK_MASTER_HOST=s201

　　　　　　#指定spark老大Master的埠

　　　　　　export SPARK_MASTER_PORT=7077

　　　　(0)sc:SparkContext物件spark程式的入口點，封裝了整個spark執行環境的資訊

spark複習筆記(2)

1.什麼是spark?

2為什麼要學Spark

3 Spark特點

1) 快

4.spark安裝

spark複習筆記(2)

spark複習筆記(4):RDD變換

spark複習筆記(7):sparkSQL

Spark SQL 筆記(2)——Spark 生態圈和 Hadoop 生態圈對比

java複習筆記2--SpringCloud系列一：微服務啟動原理探索

離散數學複習筆記-2

作業系統複習筆記2

spark 學習筆記-spark2.2.0

spark on yarn模式下內存資源管理（筆記2）

複習電商筆記-2

spark筆記2之spark粗略執行流程

C++程式設計學習筆記複習/拾遺 2

java複習筆記—servlet(2)—監聽器

java複習筆記7--java基礎之I/O流2

Spark SQL 筆記(11)——實戰網站日誌分析（2）統計結果入庫

Spark SQL 筆記(19)——spark SQL 總結(2) DataFrame VS SQL

C語言複習筆記（2）——運算子優先順序

大資料實時計算Spark學習筆記（10）—— Spar SQL(2) -JDBC方式操作表

大資料實時計算Spark學習筆記（2）—— Spak 叢集搭建

編譯原理_複習筆記1-2章

spark複習筆記(2)

1.什麼是spark?

2為什麼要學Spark

3 Spark特點

1) 快

4.spark安裝

相關推薦

　　1.什麼是spark?

　　1) 快