spark-project專案的hdfs配置
1、使用hadoop-2.5.0-cdh5.3.6.tar.gz,上傳到虛擬機器的/usr/local目錄下。(http://archive.cloudera.com/cdh5/cdh/5/)
2、將hadoop包進行解壓縮:tar -zxvf hadoop-2.5.0-cdh5.3.6.tar.gz
3、對hadoop目錄進行重新命名:mv hadoop-2.5.0-cdh5.3.6 hadoop
4、配置hadoop相關環境變數
vi ~/.bashrc
export HADOOP_HOME=/usr/local/hadoop
export PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin
source ~/.bashrc
5、建立/usr/local/data目錄
修改core-site.xml<property> <name>fs.default.name</name> <value>hdfs://sparkproject1:9000</value> </property> |
修改hdfs-site.xml//用於確定將HDFS檔案系統的元資訊儲存在什麼目錄下。若設定為多個目錄,那這些目錄下都儲存著元資訊的多個備份。 <property> <name>dfs.name.dir</name> <value>/usr/local/data/namenode</value> </property> //用於確定將HDFS檔案系統的資料儲存在什麼目錄下。將這個引數設定為多個分割槽上目錄,即可將HDFS建在不同分割槽上 <property> <name>dfs.data.dir</name> <value>/usr/local/data/datanode</value> </property> //dfs.tmp.dir在安裝配置HADOOP的時候,一定要更改hadoop.tmp.dir ,機器意外斷電,服務重啟後,/tmp 下的目錄被清空,預設位置在/tmp/{$user} <property> <name>dfs.tmp.dir</name> // <value>/usr/local/data/tmp</value> </property> //hadoop的備份係數,每個block在hadoop叢集中有幾份,係數越高,冗餘性越好,佔用儲存也越多。備份係數在hdfs-site.xml中定義,預設值為3. <property> <name>dfs.replication</name> <value>2</value> </property> 參考: |