1. 程式人生 > >Windows上搭建hadoop開發環境

Windows上搭建hadoop開發環境

前言

Windows下執行Hadoop,通常有兩種方式:一種是用VM方式安裝一個Linux作業系統,這樣基本可以實現全Linux環境的Hadoop執行;另一種是通過Cygwin模擬Linux環境。後者的好處是使用比較方便,安裝過程也簡單,本篇文章是介紹第二種方式Cygwin模擬Linux環境。

準備工作


(1)安裝JDK1.6或更高版本,安裝時注意,最好不要安裝到帶有空格的路徑名下,例如:Programe Files,否則在配置Hadoop的配置檔案時會找不到JDK。

安裝Cygwin

Cygwin是Windows平臺下模擬Unix環境的工具,需要在安裝Cygwin的基礎上安裝Hadoop,下載地址:

http://www.cygwin.com/ 根據作業系統的需要下載32位或64的安裝檔案。

一、雙擊下載好的安裝檔案,點選下一步進入程式引導安裝頁,這裡有三個選項,選擇第一項網路安裝:

  • 網路安裝:通過網路下載並安裝軟體包
  • 下載但不安裝:通過網路下載軟體包
  • 本地安裝:是用本地軟體包安裝

二、選擇install from internet

                                                 

三、選擇安裝路徑
 
三、選擇local Package Directory
 
四、選擇您的Internet連線方式
 
五、選擇合適的安裝源,點選下一步

                                               

六、這一步比較重要,以下軟體包要確保被安裝:

                                      

在Select Packages介面裡,Category展開net,選擇如下openssh和openssl兩項

  

如果要在Eclipe上編譯Hadoop,需要安裝Category為Base下的sed

  

如果想在Cygwin上直接修改hadoop的配置檔案,可以安裝Editors下的vim

    

七、點選“下一步”,等待安裝完成。

八、配置環境變數

在“我的電腦”上點選右鍵,選擇選單中的“屬性",點選屬性對話方塊上的高階頁籤,點選”環境變數"按鈕,在系統變數列表裡雙擊“Path”變數,在變數值後輸入安裝的Cygwin的bin目錄,例如:D:\cygwin64\bin

久、安裝sshd服務

雙擊桌面上的Cygwin圖示,啟動Cygwin,執行ssh-host-config -y命令,執行後,會提示輸入密碼。

                                          此時輸入密碼和確認密碼,回車。最後出現Host configuration finished.Have fun!表示安裝成功。

                                            

輸入net start sshd,啟動服務。或者在系統的服務裡找到並啟動Cygwin sshd服務。

安裝hadoop

前面部分在公司電腦操作,以下安裝操作在本機操作,過程不受影響。

   下載hadoop

把hadoop壓縮包解壓到/home/使用者名稱 目錄下,資料夾名稱更改為hadoop,可以不修改,但後邊在執行命令時稍顯麻煩。

 (1)單機模式配置方式

  單機模式不需要配置,這種方式下,Hadoop被認為是一個單獨的Java程序,這種方式經常用來除錯。

 (2)偽分佈模式

  可以把偽分佈模式看作是隻有一個節點的叢集,在這個叢集中,這個節點既是Master,也是Slave,既是NameNode,也是DataNode,既是JobTracker,也是TaskTracker。

     偽分佈模式只需要修改幾個配置檔案即可。

 配置hadoop-env.sh,記事本開啟改檔案,設定JAVA_HOME的值為你的JDK安裝路徑,例如:

JAVA_HOME="D:\javatools\jdk1.6.0"

配置core-site.xml

  1. <?xmlversion="1.0"?>
  2. <?xml-stylesheettype="text/xsl"href="configuration.xsl"?>
  3. <!-- Put site-specific property overrides in this file. -->
  4. <configuration>
  5.     <property>
  6.     <name>fs.default.name</name>
  7.     <value>hdfs://localhost:9000</value>
  8.   </property>
  9.   <property>
  10.     <name>mapred.child.tmp</name>
  11.     <value>/home/u/hadoop/tmp</value>
  12.   </property>
  13. </configuration>

 配置hdfs-site.xml

  1. <?xmlversion="1.0"?>
  2. <?xml-stylesheettype="text/xsl"href="configuration.xsl"?>
  3. <!-- Put site-specific property overrides in this file. -->
  4. <configuration>
  5.     <property>
  6.       <name>dfs.replication</name>
  7.       <value>1</value>
  8.     </property>
  9. </configuration>

 配置mapred-site.xml

  1. <?xmlversion="1.0"?>
  2. <?xml-stylesheettype="text/xsl"href="configuration.xsl"?>
  3. <!-- Put site-specific property overrides in this file. -->
  4. <configuration>
  5.     <property>
  6.        <name>mapred.job.tracker</name>
  7.        <value>localhost:9001</value>
  8.       </property>
  9.       <property>
  10.        <name>mapred.child.tmp</name>
  11.        <value>/home/u/hadoop/tmp</value>
  12.       </property>
  13. </configuration>

    啟動hadoop

開啟Cgywin視窗,執行cd ~/hadoop命令,進入hadoop資料夾,啟動Hadoop前,需要先格式化Hadoop的檔案系統HDFS,執行命令:bin/hadoop namenode -format,(注意namenode要小些,否則如果輸入NameNode,會提示錯誤,找不到或無法載入主類NameNode。如下圖:

                                



輸入命令 bin/start-all.sh,啟動所有程序。

                                

   驗證是否成功安裝

開啟瀏覽器,輸入網址:http://localhost:50030     然後回車,如果能訪問則安裝成功。訪問截圖如下:

  

參考文獻:Hadoop實戰