1. 程式人生 > >win8 x64 4核8G記憶體 搭建本地hadoop2.6.4叢集

win8 x64 4核8G記憶體 搭建本地hadoop2.6.4叢集

之前一直都是在已經搭建好的linux系統上的hadoop叢集進行相關的大資料spark技能開發,但是並沒有很深入的自己去搭建環境和了解一些細節(可能本人也比較懶惰哈^-^),於是在做一個spark叢集處理產品線的小專案的時候,公司無法提供環境,於是在本地win8 上搭建了hadoop叢集和spark叢集(屬於偽叢集)進行相關功能開發實現。
於是將一個簡單的搭建流程和出現的相關問題做了一次回顧和記錄,供自己查閱和了解。網上的我也都看了一下,大部分都不是很適合小白來開始,我也是一個小白,就從小白的認知來開始吧。
首先介紹一下在安裝之前本地系統已經安裝了jdk8,當初安裝直接預設安裝路徑:C:\Program Files\Java\jdk1.8.0_91。這樣的安裝給後面帶來了一點點小困擾,不過沒啥大的影響。
安裝檔案:
spark-1.6.0
jdk1.8
hadoop-2.6.4

安裝步驟:
1.jdk配置。因為已經在系統中安裝了jdk1.8,但是安裝的路徑中有空格存在,這個是不允許(後期會報錯),但是又為了不影響原有的相關開發,就將原有的安裝jdk完成後的目錄拷貝一份直接放到C盤下,如:C:\Java\jdk1.8.0_91。

2.在官網上分別下載spark 和hadoop壓縮包,解壓縮到本地D盤(我自己的都是安裝在D盤),分別配置 環境變數 spark_home 和hadoop_home,配置方式和jdk配置一樣,不重複了。

3.其實到了這一步,配置正常的話,spark是已經可以用了,進入命令列,輸入spark-shell,就能啟動spark相關環境,因為懶得在本地做一些虛擬化服務,所以才叫做偽叢集,就是單機local執行,哈哈,夠用就行。

4.這個時候就需要來好好配置一下這個hadoop了,開啟D:\hadoop-2.6.4\etc\hadoop,可以看到很多配置檔案和啟動命令。我們需要配置如下檔案:
hadoop-env.cmd
core-site.xml
hdfs-site.xml
yarn-site.xml
其實,如果本地無法使用這樣的yarn模式,就只需要配置上面三個即可,當然如果要是做的很規矩的話,日誌配置檔案log4j.properties 也可以進行配置,我比較懶,直接預設即可。

設定hadoop-env.cmd,如下:
這裡寫圖片描述

可以看到,需要設定java_home和hadoop_home,這個java_home就需要路徑中不能存在空格,就是上面說的為啥複製一份出來即可。

hdfs-site.xml中如果有興趣的可以多配製一下,我這裡都是採用預設,本機麼,無需配置這麼多,跑不起來了都快,哈哈。

core-site.xml中的path可以預設,也可以根據本地的資源進行配置,可以搜一搜配置目錄即可瞭解,不多重複。

5.至此就基本上安裝完成,現在就需要驗證是否配置Ok

校驗:
1.啟動hadoop 的hdfs服務,進入命令列轉向到hadoop目錄,我的就是:D:\hadoop-2.6.4\sbin,進入到這個目錄後,輸入hdfs namenode -format回車啟動,隨後 start-dfs.cmd 回車,啟動hdfs服務。

2.啟動hdfs服務後,即可在hdfs上新建目錄,上傳檔案等。
檢視hdfs目錄:
hdfs dfs -ls /
建立hdfs目錄路徑:
hdfs dfs -mkdir -p /user/hadoop/
上傳檔案:
在命令列中轉向到本地的某個目錄下,然後按照如下方式進行上傳檔案即可。
這裡寫圖片描述

至此餘下的即可在本地myeclipse進行專案搭建,maven方式即可,搭建一個普通的專案,pom.xml配置檔案資訊如下: