Scala入門到大資料二

阿新 • • 發佈：2018-12-23

這裡我們使用spark作為資料引擎，在此基礎上實現我們的大資料應用。

一、spark的安裝

首先需要安裝的就是java環境，安裝特定的spark版本需要特定的java版本，可從spark原始碼中的pom檔案中檢視java版本要求，安裝好java環境之後進入spark官網（http://spark.apache.org/downloads.html），直接下載。spark不依賴hadoop，但是如果你已經安裝了一個hadoop叢集或者安裝好的hdfs，那就下載對應的版本。

下載完成之後解壓，tar -xf XXX （本文以linux環境演示），x是解壓，f是指定要解壓的檔案的名字。

二、shell的使用

spark帶有互動式的shell，可以作即時資料分析。執行./bin/spark-shell就可以開啟，我在啟動的時候遇到過Caused by: java.net.UnknownHostException錯誤，原因是linux的主機名沒有在/etc/hosts中，hostname檢視主機名，然後ping hostname看通不通，不通的話就會出現上述的錯誤，在/etc/hosts中假如主機名即可。修復錯誤之後正常啟動。得到如下圖。

會發現資訊還是挺多的，提示的內容中也說了可以調整日誌級別為warn，到conf目錄下，複製log4j.properties.template一份在conf下為log4j.properties，修改log4j.rootCategory=INFO, console為log4j.rootCategory=WARN, console

啟動之後就可以開始做一些簡單的計算任務了，

這裡的sc不用聲名，shell啟動時就已經建立了這個SparkContext物件來用於訪問spark。

Scala入門到大資料二

這裡我們使用spark作為資料引擎，在此基礎上實現我們的大資料應用。

一、spark的安裝

二、shell的使用

Scala入門-大資料雲端計算下的開發語言

Scala入門到大資料二

10小時入門大資料（二）------初識Hadoop

十小時入門大資料學習筆記（二）

從五篇paper入門大資料與Hadoop（二）：GFS

如何快速入門大資料學習，有哪些入門技巧

此文獻給正打算入門大資料的朋友：大資料學習筆記1000條（1）

入門大資料行業！必備的十大基礎

此文獻給正打算入門大資料的朋友：大資料學習筆記1000條（2）

快速入門大資料

入門大資料一定要掌握的知識點

新手入門大資料，理清學習路線是關鍵

10小時入門大資料

教你零基礎如何快速入門大資料技巧

學習Scala 進擊大資料Spark生態圈進擊Spark生態圈必備視訊教程

零基礎入門大資料之spark中rdd部分運算元詳解

零基礎入門大資料之spark中的幾種key-value操作

零基礎入門大資料探勘之spark中的幾種map

零基礎入門大資料探勘之spark的rdd

零基礎入門大資料探勘之reduce方法

Scala入門到大資料二

這裡我們使用spark作為資料引擎，在此基礎上實現我們的大資料應用。

一、spark的安裝

二、shell的使用

相關推薦