1. 程式人生 > >Hadoop1 Centos偽分散式部署

Hadoop1 Centos偽分散式部署

前言:

      畢業兩年了,之前的工作一直沒有接觸過大資料的東西,對hadoop等比較陌生,所以最近開始學習了。對於我這樣第一次學的人,過程還是充滿了很多疑惑和不解的,不過我採取的策略是還是先讓環境跑起來,然後在能用的基礎上在多想想為什麼。

      通過這三個禮拜(基本上就是週六週日,其他時間都在加班啊T T)的探索,我目前主要完成的是:

      所以我下邊會分三次記錄下我的過程,為自己以後查閱方便,要是能幫助到其他人,自然是更好了!

===============================================================長長的分割線====================================================================

正文:

  我的部署環境是之前在阿里雲購買的Linux雲伺服器(大家用自己的linux環境,或者搭個VM虛擬機器也是可以滴),系統是CentOS6.X,之前需要自己安裝好JDK,我安裝的是1.6的,注意這個後邊在安裝完hadoop後,也需要給Hadoop配置JAVA_HOME,不然會報錯。

      在安裝hadoop之前,我們需要先配置SSH免登陸,如果不配置的話,我們後邊在啟動hadoop時,都將需要輸入密碼,到時會很麻煩,這個網上有很多資料,也可以參考我的另外一篇部落格:http://www.cnblogs.com/PurpleDream/p/4012328.html 。注意,我的基本與網上步驟一致,這個也是我當初參考網上的步驟,在執行的時候根據自己的情況稍加修改,就可以了。

      安裝hadoop首先是下載hadoop,由於我參考的《hadoop實戰》這本書,所以為了更接近書中的內容,同時也考慮到高版本的hadoop涉及的東西會更多,不利於我這樣的初學者學習,所以我選擇hadoop-1.0.1這個版本。下邊的網址中是完整的hadoop版本的下載列表,也可以根據自己的需要去下載:http://archive.apache.org/dist/hadoop/core/

      我下載的是hadoop-1.0.1.tar.gz,通過SSH工具上傳到linux伺服器的目錄中(我的是:/myself_setted/hadoop),然後利用解壓縮命令“tar -zxvf hadoop-1.0.1.tar.gz”解壓到當前目錄。

      進入解壓縮後的目錄(我的是:/myself_setted/hadoop/hadoop-1.0.1),進入conf資料夾,進行配置:

      1.首先開啟hadoop-env.sh檔案,修改配置檔案如下:export JAVA_HOME=/usr/java/jdk1.6.0_35     注意,此處的jdk路徑是之前在安裝JDK時配置的路徑,不要寫錯,如果配置有誤,後邊在啟動hadoop時,會報找不到java的錯誤。

      2.然後在開啟core-site.xml檔案,這裡配置的是HDFS的地址及段口紅,配置如下:   

<configuration>
        <property>
                <name>fs.default.name</name>
                <value>hdfs://localhost:9000</value>
        </property>
</configuration>

      3.再開啟hdfs-site.xml檔案,配置的備份方式預設是3,在我們這種偽分散式部署方式中,需要將其配置為1

<configuration>
        <property>
                <name>dfs.replication</name>
                <value>1</value>
        </property>
</configuration>

       4.最後是MapReduce的配置檔案,開啟mapred-site.xml,配置JobTracker的地址和埠

<configuration>
        <property>
                <name>mapred.job.tracker</name>
                <value>localhost:9001</value>
        </property>
</configuration>

       通過上邊的四步,我們已經完成了基本的配置工作,在啟動hadoop前,我們還需要格式化hadoop,我們需要將目錄切換到解壓縮後的根目錄(我的是:/myself_setted/hadoop/hadoop-1.0.1),依次執行以下命令:

       1.bin/hadoop namenode -format

       2.bin/hadoop datanode -format

       3.bin/start-all.sh

       通過上邊的三步,我們可以認為我們的hadoop已經啟動,但是我們還需要驗證啟動是否有問題,驗證的方法比較多,我就說說我用的(以下的驗證方法是並列的關係,不是先後繼承關係):

       1.開啟瀏覽器,分別輸入網址http://localhost:50030(MapReduce的web頁面);http://localhost:50070(HDFS的web頁面)。由於我的是雲伺服器,所以我自己的在檢視的時候,localhost替換為伺服器的公網IP

       2.在linux環境下,輸入JPS,檢視關於hadoop的程序是否完整,完整事例如下(程序號不定哈):    

4113 TaskTracker
4006 JobTracker
26640 Jps
3680 NameNode
3911 SecondaryNameNode
3788 DataNode

       當然如果上邊的驗證基本沒有問題,我相信你已經接近成功了,下邊我們將具體執行一個“作業”,來驗證我們的環境。我們執行的例子就是hadoop中的hello word程式,即WordCount,顧名思義就是計算單詞的出現次數,步驟如下:

       1.在以上的hadoop啟動的情況下,我們首先在hadoop-1.0.1的根目錄(我的是:/myself_setted/hadoop/hadoop-1.0.1),建立一個資料夾叫test,然後我們再test資料夾(/myself_setted/hadoop/hadoop-1.0.1/test)中簡歷一個a.txt的檔案,內容如

下(注意,此步驟中建立的資料夾的位置以及資料夾中檔案的名字和內容,你可以隨意設定路徑和內容,主要你在下邊的2和3三步中上傳檔案到HDFS上時,一定要把路徑寫正確):

aa
bb
cc
ee
aa
ee
ff

      2.在hdfs中建立一個輸入資料夾: bin/hadoop fs -mkdir /input。注意我執行此命令時所在的目錄是hadoop-1.0.1的根目錄(我的是:/myself_setted/hadoop/hadoop-1.0.1)

      3.將a.txt放入到2中hdfs的輸入資料夾中:bin/hadoop fs -put test/a.txt /input。注意我執行此命令時所在的目錄是hadoop-1.0.1的根目錄(我的是:/myself_setted/hadoop/hadoop-1.0.1)

      4.這時如果我們在執行bin/hadoop fs -ls /input這個命令時,如果之前的步驟正確的話,我們將看到列出了一個a.txt的檔案。注意我執行此命令時所在的目錄是hadoop-1.0.1的根目錄((我的是:/myself_setted/hadoop/hadoop-1.0.1)

      5.經過上邊的4步,我們下邊還有最後一個命令,那就是執行作業。我們看下hadoop-1.0.1的根目錄(我的是:/myself_setted/hadoop/hadoop-1.0.1,有一個hadoop-examples-1.0.1.jar這個jar包,這裡面打包了一些hadoop自帶的例子,我們要執行的WordCount方法就是這個包中,執行命令如下:bin/hadoop  jar  hadoop-examples-1.0.1.jar  wordcount  /input  /output,

      6.根據提示,如果出現map 100% reduce 100%等字樣,我們就可以通過bin/hadoop fs -ls /output命令檢視/output資料夾中統計結果了。

相關推薦

Hadoop1 Centos分散式部署

前言:       畢業兩年了,之前的工作一直沒有接觸過大資料的東西,對hadoop等比較陌生,所以最近開始學習了。對於我這樣第一次學的人,過程還是充滿了很多疑惑和不解的,不過我採取的策略是還是先讓環境跑起來,然後在能用的基礎上在多想想為什麼。       通過這三個禮拜(基本上就是週六週日,其他時間都在

大資料技術學習筆記之Hadoop框架基礎1-Hadoop介紹及分散式部署

一、學習建議     -》學習思想         -》設計思想:分散式             -》資料採集

大資料基礎課之Yarn分散式部署0926

1 Yarn偽分散式部署 You can run a MapReduce job on YARN in a pseudo-distributed mode by setting a few parameters and running ResourceMana

hadoop HDFS Pseudo-Distributed Mode 分散式部署

   一、 架構簡介:        本文件介紹如何設定和配置單節點Hadoop安裝,以便您可以使用Hadoop MapReduce和Hadoop分散式檔案系統(HDFS)快速執行簡單操作。       使用hadoop版本:Apache Hadoop 2.6.5  

zookeeper實踐(二) 分散式部署和配置

最近在自己的虛擬機器上測試kafka,涉及到zookeeper,因此對zookeeper進行一些學習。 kafka有自帶的zookeeper,但是自帶的zookeeper配置檔案非常簡單。 本文以獨立的zookeeper作為配置的軟體。 1、目標:  在自己工作機上的虛擬機

hadoop之docker分散式部署

配置環境: macbook、兩臺ubuntu 16.04 server虛擬機器,用VMware Fusion建立的,虛擬機器網路介面卡模式是NAT模式(注意此處一定要是NAT模式) 第一步:搭建虛擬網橋br0,br1 不過我要說下為什麼要用虛擬網橋,在知道這個東西前,我也

hadoop分散式部署

Hadoop The project includes these modules: Hadoop Common: The common utilities that support the other Hadoop modules. Hadoop Dis

Hadoop的分散式的安裝及部署

文章目錄 需要的軟體及原始碼包 安裝JDK Hadoop的部署安裝 Hadoop的配置 Hadoop的使用 做Hadoop的偽分散式我們分為一下幾個步驟 需要的軟體及原始碼包 FileZil

分散式環境的部署,SSH,JPS

首先官網:http://archive-primary.cloudera.com/cdh5/cdh/5/hadoop-2.6.0-cdh5.7.0/hadoop-project-dist/hadoop-hdfs/hdfs-default.xml jps命令的常用縮寫 jps命令 [[

在Linux系統下安裝zookeeper並部署實現分散式

一、準備工作: 1、在Linux下安裝jdk並配置環境變數 2、在Linux下安裝zookeeper並配置環境變數 二、具體操作: 1、在Linux下安裝jdk並配置環境變數 1)直接在Linux系統中去官網中下載Linux版本的jdk,這裡以jdk1.8為例 2)進入

hadoop在centos系統上的分散式安裝

建立hadoop使用者 建立hadoop使用者可以使不同使用者之間有明確的許可權區別,也可使針對hadoop的配置操作不影響其他使用者的使用。 >>su root //切換到超級系統管理員,需要輸入密碼 >>useradd -

JavaWeb專案linux環境nginx分散式部署

環境介紹: 部署環境:centos7 專案:Javaweb            所用技術:Dubbo,Zookeeper,Solr,ActiveMQ,Redis,Nginx,Maven,SpringMVC,MySQL;            專案說明:專案共12個模組

Centos安裝單節點分散式Hadoop

注意:儘量參考官方文件:https://hadoop.apache.org/ 1、上傳壓縮包到伺服器並解壓 2、刪除解壓中share中無用文件 3、配置/etc/hadoop中的檔案 1、etc/hadoop/hadoop-env.sh: 修改export JAVA_HOME

hadoop 分散式搭建(包括centos連線xshell)

1.準備Linux環境(配置nat方式連線xshell) 在VM的虛擬網路介面卡中配置VM8,如圖: centos裡配置:vim /etc/sysconfig/network-scripts/ifcfg-ens33 DEVICE="eth0" BOOTPROTO="static" ##

CentOS 7.2 下安裝 Hadoop 2.7.5 並搭建分散式環境的方法

資源下載 一、建立 Hadoop 使用者 建立 hadoop 使用者,並分配以使用者名稱為家目錄/home/hadoop,並將其加入到sudo使用者組,建立好使用者之後,以 hadoop 使用者登入: sudo useradd

Centos分散式安裝Hive以及安裝可能出現的問題

安裝要求:Hive 1.2.1   MySQL 5.7    JDK 1.81.下載解壓cd /mk/soft  tar -xvzf apache-hive-1.2.1-bin.tar.gz -C /appl/  cd /appl  mv apache-hive-1.2.1-

centos搭建Hadoop2.4分散式

vmware安裝比較簡單,一步步安裝即可。 1.準備Linux環境1.0點選VMware快捷方式,右鍵開啟檔案所在位置 -> 雙擊vmnetcfg.exe -> VMnet1 host-only ->修改subnet ip 設定網段:192.168.1.0 子網掩碼:255.255.255.

Hadoop本地模式、分散式和全分散式叢集安裝與部署

<link rel="stylesheet" href="https://csdnimg.cn/release/phoenix/template/css/

hdfs分散式叢集搭建和部署詳解

    大家好,這是我的第一篇技術部落格,也是第一篇部落格,請大家多多支援。我寫部落格的初衷無非是對所學知識的回顧和總結,同時能與廣大的讀者一起探討,共同進步,這是一件非常令人開心的事。     部落格的內容大都是大資料技術相關,今天要說的是hadoop,以後會可能還會更新

基於hadoop1.2.1的hive分散式安裝

主要參考的這篇blog http://www.kankanews.com/ICkengine/archives/72851.shtml 使用的hive版本是hive-0.11.0-bin.tar.gz 作業系統是 ubuntu12.04 64位 1、下載