mac下Hadoop、HDFS、Spark環境的安裝和搭建

阿新 • • 發佈：2019-01-18

環境搭建

相比之前搭建Hadoop環境的Windows系統的相對繁瑣步驟，Mac下顯得簡單不少。
雖然我們需要搭建的是Spark環境，但是因為Spark依賴了Hadoop的HDFS以及YARN計算框架，當然還有類似軟體包管理軟體。

安裝前必備

作業系統：Mac OS X
JDK：1.8.0_121
命令終端：iTerm2（Mac自帶的命令終端也一樣，只是配置環境引數需要到~/.bash_profile下新增，對於iTerm2需要到~/.zshrc中新增）
軟體包管理工具：brew（能夠方便的安裝和解除安裝軟體，使用brew cash還可以安裝圖形化的軟體，類似於Ubuntu下的apt-get

以及前端裡的npm）

安裝Hadoop

上面步驟和條件如果都具備的話，就可以安裝Hadoop了，這也是我唯一遇到坑的地方。

1. 配置ssh

配置ssh就是為了能夠實現免密登入，這樣方便遠端管理Hadoop並無需登入密碼在Hadoop叢集上共享檔案資源。
如果你的機子沒有配置ssh的話，在命令終端輸入ssh localhost是需要輸入你的電腦登入密碼的。配置好ssh後，就無需輸入密碼了。
第一步就是在終端執行ssh-keygen -t rsa -P ''，之後一路enter鍵，當然如果你之前已經執行過這樣的語句，那過程中會提示是否要覆蓋原有的key，輸入y即可。
第二步執行語句cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys

用於授權你的公鑰到本地可以無需密碼實現登入。
理論上這時候，你在終端輸入

ssh
 lcoalhost

就能夠免密登入了。

但是，我在這裡遇到了個問題，折騰了我蠻久。當我執行cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys的時候，總是出現如下警告zsh: permission denied: /Users/jackie/.ssh/authorized_keys。
顯然這是許可權問題，我直接為ssh目錄賦予777、740和700都無效，還是報同樣的錯。於是查了下資料在這裡看到了解決方案。
設定authorized_keys許可權——$ chmod 600 authorized_keys

設定.ssh目錄許可權——

$
 chmod 700 -R .ssh

參考資料給出的解釋是：檔案和目錄的許可權千萬別設定成chmod 777.這個許可權太大了，不安全，數字簽名也不支援--!。

如果是別人電腦ssh到我的電腦，那麼除了要把自己的私鑰複製給別人，還需要執行cat id_rsa.pub >> authorized_keys命令才行。

生成ssh後，使用 ssh localhost 來測試 ssh 是否成功。給出提醒如下：

ssh: connect to host localhost port 22: Connection refused

這是因為mac電腦的共享配置未開啟，在System preferences ->Sharing中開啟如下配置：

此時再次使用 ssh localhost 命令來測試返回 Last login: Mon Mar 21 09:58:12 2016，表明已經成功。

可以看看在Mac下安裝Hadoop的坑

2. 下載安裝Hadoop

這時候brew的好處就體現出來了，你無需到Hadoop官網去找下載連結，只要在命令終端輸入brew install hadoop等命令執行完，你就可以看到在/usr/lcoal/Cellar目錄下就有了hadoop目錄，表示安裝成功。（當然命令執行過程中會因為網路或其他原因中斷，這時候你只需要重新執行一次brew install hadoop即可）

3. 配置Hadoop

3.1 進入安裝目錄/usr/local/Cellar/hadoop/2.8.0/libexec/etc/hadoop，找到並開啟hadoop-env.sh檔案，將
export HADOOP_OPTS="$HADOOP_OPTS -Djava.net.preferIPv4Stack=true"
改為

export HADOOP_OPTS="$HADOOP_OPTS -Djava.net.preferIPv4Stack=true -Djava.security.krb5.realm= -Djava.security.krb5.kdc="
export JAVA_HOME="/Library/Java/JavaVirtualMachines/jdk1.8.0_121.jdk/Contents/Home"

(java_home請寫上你本機上jdk安裝的位置)

3.2 配置hdfs地址和埠
進入目錄/usr/local/Cellar/hadoop/2.8.0/libexec/etc/hadoop，開啟core-site.xml將<configuration></configuration>替換為

<configuration>
  <property>
     <name>hadoop.tmp.dir</name>
<value>/usr/local/Cellar/hadoop/hdfs/tmp</value>
    <description>A base for other temporary directories.</description>
  </property>
  <property>
     <name>fs.default.name</name>
     <value>hdfs://localhost:8020</value>
  </property>
</configuration>

3.3 配置mapreduce中jobtracker的地址和埠
在相同的目錄下，你可以看到一個mapred-site.xml.template首先將檔案重新命名為mapred-site.xml，同樣將<configuration></configuration>替換為

<configuration>
      <property>
        <name>mapred.job.tracker</name>
        <value>localhost:8021</value>
      </property>
</configuration>

3.4 修改hdfs備份數
相同目錄下，開啟hdfs-site.xml加上

<configuration>
   <property>
     <name>dfs.replication</name>
     <value>1</value>
    </property>
</configuration>

4. 格式化HDFS

這個操作相當於一個檔案系統的初始化，執行命令hdfs namenode -format
在終端最終會顯示成功

17/05/06 15:51:29 INFO namenode.FSImageFormatProtobuf: Saving image file /usr/local/Cellar/hadoop/hdfs/tmp/dfs/name/current/fsimage.ckpt_0000000000000000000 using no compression
17/05/06 15:51:29 INFO namenode.FSImageFormatProtobuf: Image file /usr/local/Cellar/hadoop/hdfs/tmp/dfs/name/current/fsimage.ckpt_0000000000000000000 of size 322 bytes saved in 0 seconds.
17/05/06 15:51:29 INFO namenode.NNStorageRetentionManager: Going to retain 1 images with txid >= 0
17/05/06 15:51:29 INFO util.ExitUtil: Exiting with status 0
17/05/06 15:51:29 INFO namenode.NameNode: SHUTDOWN_MSG:
/************************************************************
SHUTDOWN_MSG: Shutting down NameNode at jackies-macbook-pro.local/192.168.*.*
************************************************************/

5. 配置Hadoop環境變數

因為我用的是iTerm2，所以開啟~/.zshrc新增

export HADOOP_HOME=/usr/local/Cellar/hadoop/2.8.0
export PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin

再執行source ~/.zhsrac以確保配置生效
配置這個是方便在任意目錄下全域性開啟關閉hadoop相關服務，而不需要到/usr/local/Cellar/hadoop/2.8.0/sbin下執行。

6. 啟動關閉Hadoop服務

啟動/關閉HDSF服務

./start-dfs.sh          
./stop-dfs.sh

啟動成功後，我們在瀏覽器中輸入http://localhost:50070可以看到

啟動/關閉YARN服務

./start-yarn.sh        
./stop-yarn.sh

啟動成功後，我們在瀏覽器中輸入http://localhost:8088可以看到

啟動/關閉Hadoop服務(等效上面兩個)

./start-all.sh   
./stop-all.sh

注意，如果從別人電腦往我的電腦裡傳檔案，出現connection refused提示。則可能需要把電腦的hosts檔案中的 localhost 127.0.0.1 改為 localhost 0.0.0.0 。

另外，可以通過

jps

命令看到當前hadoop啟動的節點。

可以通過

hdfs dfs -mkdir -p /input

命令來在 HDFS 檔案系統中建立目錄。注意這個目錄是在HDFS的檔案系統中的目錄，而不是你電腦上的目錄。

安裝Scala

同樣的配方，執行brew install scala你就可以擁有Scala。
在終端執行scala -version，如果出現類似Scala code runner version 2.12.2 -- Copyright 2002-2017, LAMP/EPFL and Lightbend, Inc.說明你安裝成功了。
同樣，不要忘了配置Scala的環境變數，開啟~/.zshrc新增

export SCALA_HOME=/usr/local/Cellar/scala/2.12.2
export PATH=$PATH:$SCALA_HOME/bin

安裝Spark

有了前面這麼多的準備工作，終於可以安裝Spark了。也是比較簡單,起碼我沒有遇到坑。
到Spark官網下載你需要的Spark版本，注意這裡我們看到需要有依賴的Hadoop，而且還讓你選擇Hadoop的版本。
下載完直接雙擊壓縮包就會解壓（建議安裝一個解壓軟體），將其重新命名為spark放到/usr/local下面。

毫無例外，我們還需要一個環境引數配置，開啟~/.zshrc新增

export SPARK_HOME=/usr/local/spark
export PATH=$PATH:$SPARK_HOME/bin

走到這一步，我們終於可以啟動spark了，開啟終端，輸入spark-shell，這時候會看到

妥了！雖然整個安裝過程沒有遇到什麼大坑，但是還是比較耗時間。

這裡借鑑

mac下Hadoop、HDFS、Spark環境的安裝和搭建

安裝前必備

安裝Hadoop

1. 配置ssh

2. 下載安裝Hadoop

3. 配置Hadoop

4. 格式化HDFS

5. 配置Hadoop環境變數

6. 啟動關閉Hadoop服務

安裝Scala

安裝Spark

mac下Hadoop、HDFS、Spark環境的安裝和搭建

Hadoop（HDFS、YARN、HBase、Hive和Spark等）預設埠表

C#、JAVA操作Hadoop（HDFS、Map/Reduce）真實過程概述。元件、原始碼下載。無法解決：Response status code does not indicate success: 500。

mac下webstorm2016.2啟用、部分漢化和設定風格教程

hadoop之HDFS、yarn、MapReduce執行原理分析

hive實現txt資料匯入，理解hadoop中hdfs、mapreduce

Mac下hadoop運行word count的坑

Mac下python+selenium【1】環境搭建

1、Python簡介及環境安裝

Mac下 Hadoop部署簡介(Mac OSX 10.8.3 + Hadoop

Mac下Sublime Text3配置Python3開發環境

mac下微信公眾號開發環境搭建

zookeeper執行環境2、3：單節點安裝和偽分散式叢集安裝

Mac下Sublime Text3配置Python開發環境

linux、hdfs、hive、hbase常用命令

Mac 下配置react-native 安卓環境中遇到的坑

mac 下hadoop安裝並執行例子

1、koala軟件的安裝和使用--less教程

Spark環境安裝部署及詞頻統計例項

Mac下mysql 5.7.14壓縮包安裝

mac下Hadoop、HDFS、Spark環境的安裝和搭建

安裝前必備

安裝Hadoop

1. 配置ssh

2. 下載安裝Hadoop

3. 配置Hadoop

4. 格式化HDFS

5. 配置Hadoop環境變數

6. 啟動關閉Hadoop服務

安裝Scala

安裝Spark

相關推薦