C++ Hadoop實戰備忘

阿新 • • 發佈：2019-01-23

前言：hadoop用於解決大資料處理問題。
看到這麼火，咱也來湊把熱鬧，瞧瞧到底是什麼神奇的技術。
實戰過程，還是很波折。
畢竟，對這些hadoop的命令不是很熟。
所幸，天不負有心人，終於跑通了第一個示例。
對我而言，這個的意義，不亞於輸出了開天闢地的“hello world”。

配置過程中出錯時，不要洩氣，一般是由於路徑配置不對引起，可與本文件對比查錯。

作業系統：Ubuntu 10.04 LTS

JDK：jdk-6u18-linux-i586.bin

Hadoop：hadoop-0.21.0

說明：hadoop版本一定要與本文件匹配，新版本目錄格式已做修改。

1、安裝jdk1.6.0_18
1)在usr下面新建一個資料夾Java,然後將jdk複製過來.
sudo mkdir /usr/Java
sudo cp jdk的路徑 /usr/Java
2)進入到Java目錄下，改變檔案許可權為可執行
cd /usr/Java
sudo chmod u+x jdk-6u18-linux-i586.bin
3)執行安裝
(現象為Unpacking....加一連串解壓資訊）
sudo ./jdk-6u18-linux-i586.bin
2、安裝hadoop0.21.0

1)將hadoop0.21.0.tar.gz複製到usr下面的local資料夾內
sudo cp hadoop的路徑 /usr/local
2)進入到local目錄下，解壓hadoop-0.21.0.tar.gz
cd /usr/local
sudo tar -xzf hadoop-0.21.0.tar.gz
3)為了方便管理，將解壓後的資料夾名改為hadoop
sudo mv hadoop-0.21.0 hadoop
3、建立一個名為hadoop的使用者和使用者組
1)建立一個名為hadoop的使用者組
sudo addgroup hadoop
2)建立一個名為hadoop的使用者，歸到hadoop使用者組下
sudo adduser --ingroup hadoop hadoop
3)用gedit開啟etc下的sudoers檔案
sudo gedit /etc/sudoers
4)在 root ALL=(ALL) ALL 下面新增如下一行，然後儲存關閉gedit
hadoop ALL=(ALL) ALL
4、配置環境變數

1)用gedit開啟etc下的profile檔案
sudo gedit /etc/profile
2)在檔案最後加入如下幾行
export CLASSPATH=.:/usr/Java/jdk1.6.0_23/lib:/usr/Java/jdk1.6.0_18/jre/lib:$CLASSPATH
export PATH=.:/usr/Java/jdk1.6.0_23/bin:/usr/Java/jdk1.6.0_18/jre/bin:/usr/local/hadoop/bin:$PATH
3)儲存後關閉gedit，並重啟機器
sudo reboot
4)重啟後用hadoop使用者登入，驗證配置是否成功
java -version(驗證java配置是否成功)
5、建立ssh-key

1)確保網路通暢，然後裝載ssh服務
sudo apt-get install openssh-server
2)建立ssh-key，為rsa
ssh-keygen -t rsa --P
3)將此ssh-key新增到信任列表中，並啟用此ssh-key
cat /home/hadoop/.ssh/id_rsa.pub >> /home/hadoop/.ssh/authorized_keys
sudo /etc/init.d/ssh reload
4)重啟系統
6、配置hadoop
1)進入到hadoop目錄下，配置conf目錄下的hadoop-env.sh中的JAVA_HOME
cd /usr/local/hadoop
sudo gedit conf/hadoop-env.sh
（開啟後在文件的上部某行有“#export JAVA_HOME=...”字樣的地方，去掉“#”，然後在等號後面填寫你的jdk路徑，完全按此文件來的話應改為 "export JAVA_HOME=/usr/Java/jdk1.6.0_23" )
2)配置conf目錄下的core-site.xml
sudo gedit conf/core-site.xml

配置檔案內容core-site.xml。

<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

<!-- Put site-specific property overrides in this file. -->

<configuration>
<property>
       <name>fs.default.name</name>
       <value>hdfs://localhost:9000</value> 
</property>

 <property>
       <name>dfs.replication</name>
       <value>1</value> 
</property>

<property> 
       <name>hadoop.tmp.dir</name>
       <value>/home/hadoop/tmp</value> 
</property>
</configuration>

3)配置conf目錄下的mapred-site.xml
sudo gedit conf/mapred-site.xml

配置檔案內容mapred-site.xml。

<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

<!-- Put site-specific property overrides in this file. -->

<configuration>
<property> 
      <name>mapred.job.tracker</name> 
      <value>localhost:9001</value>
 </property> 
</configuration>

4)格式化namenode (首次執行必需的)
cd /usr/local/hadoop
hadoop namenode -format
5)啟動hadoop
sudo chown -hR hadoop /usr/local/hadoop
bin/start-all.sh
說明：若啟動異常，可重啟後重試。
6)驗證hadoop是否正常啟動
jps

以本機為例，輸出

      2776 SecondaryNameNode
      10848 Jps
      2322 NameNode
      2886 JobTracker
      2539 DataNode
      3102 TaskTracker

步驟二、執行C++ MapReduce程式

1、建立wordcount.cpp
cd /home/hadoop/tmp
mkdir wordcount
cd wordcount
sudo gedit wordcount.cpp

#include<algorithm>
#include<limits>
#include<string>
#include"stdint.h"
#include"hadoop/Pipes.hh"
#include"hadoop/TemplateFactory.hh"
#include"hadoop/StringUtils.hh"
using namespace std;

class WordCountMapper:public HadoopPipes::Mapper
{
public:
    WordCountMapper(HadoopPipes::TaskContext& context){}
    void map(HadoopPipes::MapContext& context)
    {
        string line =context.getInputValue();
        vector<string>word = HadoopUtils::splitString(line, " ");
        for (unsigned int i=0; i<word.size(); i++)
        {
            context.emit(word[i],HadoopUtils::toString(1));
        }
    }
};

class WordCountReducer:public HadoopPipes::Reducer
{
public:
    WordCountReducer(HadoopPipes::TaskContext& context){}
    void reduce(HadoopPipes::ReduceContext& context)
    {
        int count = 0;
        while (context.nextValue())
        {
            count +=HadoopUtils::toInt(context.getInputValue());
        }
        context.emit(context.getInputKey(),HadoopUtils::toString(count));
    }
};

int main(int argc, char **argv)
{
    return HadoopPipes::runTask(HadoopPipes::TemplateFactory<WordCountMapper,WordCountReducer>());
}

2、建立Makefile編譯檔案
sudo gedit Makefile

CC = g++
HADOOP_INSTALL = /usr/local/hadoop
PLATFORM = Linux-i386-32
CPPFLAGS = -m32 -I$(HADOOP_INSTALL)/c++/$(PLATFORM)/include
LIBS = -L$(HADOOP_INSTALL)/c++/$(PLATFORM)/lib -lhadooppipes -lhadooputils -lpthread 
wordcount: wordcount.cpp
	$(CC) $(CPPFLAGS) $< -Wall $(LIBS) -g -O2 -o [email protected]

3、執行編譯檔案
make
4、上傳執行程式到hdfs
hadoop fs -mkdir bin
hadoop fs -put wordcount bin
5、準備測試檔案
sudo gedit myfile.txt
檔案內容：1 2 3 4 5 6 7 8 9 10 11 12 13。
6、上傳測試檔案
hadoop fs -mkdir input
hadoop fs -put myfile.txt input
7、編寫配置檔案
sudo gedit job_config.xml

<?xml version="1.0"?>
<configuration>
<property>
 <name>mapred.job.name</name>
 <value>WordCount</value>
</property>

<property>
 <name>mapred.reduce.tasks</name>
 <value>10</value>
</property>

<property>
 <name>mapred.task.timeout</name>
 <value>180000</value>
</property>

<property>
 <name>hadoop.pipes.executable</name>
 <value>/user/hadoop/bin/wordcount</value>
 <description> Executable path is given as"path#executable-name"
                sothat the executable will havea symlink in working directory.
                This can be used for gdbdebugging etc.
 </description>
</property>

<property>
 <name>mapred.create.symlink</name>
 <value>yes</value>
</property>

<property>
 <name>hadoop.pipes.java.recordreader</name>
 <value>true</value>
</property>

<property>
 <name>hadoop.pipes.java.recordwriter</name>
 <value>true</value>
</property>
</configuration>

8、執行任務
hadoop fs -rmr output
hadoop pipes -conf job_config.xml -input input/myfile.txt -output output -program bin/wordcount
9、檢視結果
hadoop fs -ls output
hadoop fs -cat output/part-00000
hadoop fs -cat output/part-00001

結果格式如下

C++ Hadoop實戰備忘

C++ Hadoop實戰備忘

C# 用實例來理解IComparable和IComparer

一起talk C栗子吧（第三十四回：C語言實例--巧用溢出計算最值）

一起talk C栗子吧（第一百一十九回：C語言實例--線程死鎖三）

一起talk C栗子吧（第一百二十三回：C語言實例--顯示變量和函數的地址）

一起talk C栗子吧（第九十六回：C語言實例--使用共享內存進行進程間通信二）

一起talk C栗子吧（第一百二十四回：C語言實例--內置宏）

一起talk C栗子吧（第八十四回：C語言實例--使用信號進行進程間通信一）

一起talk C栗子吧（第一百三十一回：C語言實例--C程序內存布局三）

C語言實訓——撲克牌洗牌程序

C語言實例解析精粹學習筆記——18

C語言實例解析精粹學習筆記——19

C語言實例解析精粹學習筆記——29

C語言實例解析精粹學習筆記——32

C語言實訓報告——學生宿舍資訊管理系統

idea執行mapreduce報錯 Could not locate Hadoop executable: C:\hadoop-3.1.1\bin\winutils.exe

關於C++中實參形參的傳遞問題

Linux下靠譜的獲取本機IP的C程式碼實

C# Hadoop

C# Hadoop學習筆記（一）—環境安裝

C++ Hadoop實戰備忘

相關推薦