Scala入門到大資料二
阿新 • • 發佈:2018-12-23
這裡我們使用spark作為資料引擎,在此基礎上實現我們的大資料應用。
一、spark的安裝
首先需要安裝的就是java環境,安裝特定的spark版本需要特定的java版本,可從spark原始碼中的pom檔案中檢視java版本要求,安裝好java環境之後進入spark官網(http://spark.apache.org/downloads.html),直接下載。spark不依賴hadoop,但是如果你已經安裝了一個hadoop叢集或者安裝好的hdfs,那就下載對應的版本。
下載完成之後解壓,tar -xf XXX (本文以linux環境演示) ,x是解壓,f是指定要解壓的檔案的名字。
二、shell的使用
spark帶有互動式的shell,可以作即時資料分析。執行./bin/spark-shell就可以開啟,我在啟動的時候遇到過Caused by: java.net.UnknownHostException錯誤,原因是linux的主機名沒有在/etc/hosts中,hostname檢視主機名,然後ping hostname看通不通,不通的話就會出現上述的錯誤,在/etc/hosts中假如主機名即可。修復錯誤之後正常啟動。得到如下圖。
會發現資訊還是挺多的,提示的內容中也說了可以調整日誌級別為warn,到conf目錄下,複製log4j.properties.template一份在conf下為log4j.properties,修改log4j.rootCategory=INFO, console為log4j.rootCategory=WARN, console
啟動之後就可以開始做一些簡單的計算任務了,
這裡的sc不用聲名,shell啟動時就已經建立了這個SparkContext物件來用於訪問spark。