Apache Hadoop 入門教程第二章
下面將演示快速完成在單節點上的 Hadoop 安裝與配置,以便你對 Hadoop HDFS 和 MapReduce 框架有所體會。
- 先決條件
支持平臺:
GNU/Linux:已經證實了 Hadoop 在 GNU/Linux 平臺上可以支持 2000 個節點的集群;
Windows。本文所演示的例子都是在 GNU/Linux 平臺上運行,若在 Windows 運行,可以參閱 http://wiki.apache.org/hadoop/Hadoop2OnWindows。
所需軟件:
Java 必須安裝。Hadoop 2.7 及以後版本,需要安裝 Java 7,可以是 OpenJDK 或者是 Oracle(HotSpot)的 JDK/JRE。其他版本的 JDK 要求,可以參閱 http://wiki.apache.org/hadoop/HadoopJavaVersions;
$ sudo apt-get install ssh
$ sudo apt-get install rsync
1
2
- 下載
下載地址在 http://www.apache.org/dyn/closer.cgi/hadoop/common/。
- 運行 Hadoop 集群的準備工作
解壓所下載的 Hadoop 發行版。編輯 etc/hadoop/hadoop-env.sh 文件,定義如下參數:
設置 Java 的安裝目錄
export JAVA_HOME=/usr/java/latest
2
嘗試如下命令:
$ bin/hadoop
1
將會顯示 hadoop 腳本的使用文檔。
現在你可以用以下三種支持的模式中的一種啟動 Hadoop 集群:
本地(單機)模式
偽分布式模式
完全分布式模式
- 單機模式的操作方法
默認情況下,Hadoop 被配置成以非分布式模式運行的一個獨立 Java 進程。這對調試非常有幫助。
下面的實例將已解壓的 conf 目錄拷貝作為輸入,查找並顯示匹配給定正則表達式的條目。輸出寫入到指定的 output 目錄。
$ mkdir input
$ cp etc/hadoop/.xml input
$ bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.3.jar grep input output ‘dfs[a-z.]+‘
1
2
3
4
- 偽分布式模式的操作方法
Hadoop 可以在單節點上以所謂的偽分布式模式運行,此時每一個 Hadoop 守護進程都作為一個獨立的 Java 進程運行。
配置
使用如下的:
etc/hadoop/core-site.xml:
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://localhost:9000</value>
</property>
</configuration>
1
2
3
4
5
6
etc/hadoop/hdfs-site.xml:
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
</configuration>
有興趣的可以繼續看下一章
很多人都知道我有大數據培訓資料,都天真的以為我有全套的大數據開發、hadoop、spark等視頻學習資料。我想說你們是對的,我的確有大數據開發、hadoop、spark的全套視頻資料。
如果你對大數據開發感興趣可以加口群領取免費學習資料: 763835121
Apache Hadoop 入門教程第二章