hadoop學習筆記：執行wordcount對檔案字串進行統計案例

阿新 • • 發佈：2021-10-20

文/朱季謙

我最近使用四臺Centos虛擬機器搭建了一套分散式hadoop環境，簡單模擬了線上上的hadoop真實分散式叢集，主要用於業餘學習大資料相關體系。

其中，一臺伺服器作為NameNode，一臺作為Secondary NameNode，剩下兩臺當做DataNodes節點伺服器，類似下面這樣一個架構——

	NameNode	Secondary NameNode	DataNodes
master1(192.168.200.111)	√
master2(192.168.200.112)		√
slave1(192.168.200.117)			√
slave2(192.168.200.115)			√

接下來,就是開始通過hadoop自帶的wordcount來統計一下檔案當中的字元數量。

啟動hadoop集群后，在叢集可用情況下，按照以下步驟：
一、進入到hadoop安裝目錄，建立一個測試檔案example.txt

我的安裝目錄是：/opt/hadoop/app/hadoop/hadoop-2.7.5

[root@192 hadoop-2.7.5]# pwd
/opt/hadoop/app/hadoop/hadoop-2.7.5

新建一個example.txt，並隨機寫入一些字元：

aaa
bbb
cccc
dedef
dedf
dedf
ytrytrgtrcdscdscdsc
dedaxa
cdsvfbgf
uyiuyi
ss
xaxaxaxa

接著，在hdfs檔案系統上新建一個input資料夾，用來存放example.txt檔案——

[root@192 hadoop-2.7.5]# hdfs dfs -mkdir /input

然後，將example.txt複製到hdfs系統上的input目錄下——

[root@192 hadoop-2.7.5]# hdfs dfs -put example.txt /input

檢查一下，可以看到，example.txt檔案已經在input目錄底下了——

[root@192 hadoop-2.7.5]# hdfs dfs -ls /input
Found 1 items
-rw-r--r--   3 root supergroup         84 2021-10-20 12:43 /input/example.txt

這些準備工作做好後，就可以開始使用hadoop自帶的jar包來統計檔案example.txt當中各字元的數量了。

二、執行wordcount對檔案字元進行統計

直接在NameNode節點對應的伺服器上執行——

[root@192 hadoop-2.7.5]# hadoop jar /opt/hadoop/app/hadoop/hadoop-2.7.5/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.5.jar  wordcount /input /output

這行指令的大概意思是，分散式計算統計input目錄底下的檔案中的字元數量，將統計結果reduce到output當中，故而，最後若執行沒問題，可以在output目錄下獲取到統計結果記錄。

我第一次執行時，發生了一個異常，即執行完後，日誌執行到INFO mapreduce.Job: Running job: job_1631618032849_0002這一行時，就直接卡在了這裡，沒有任何動靜了——

[hadoop@192 bin]$ hadoop jar /opt/hadoop/app/hadoop/hadoop-2.7.5/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.5.jar wordcount /input /output
21/10/20 10:43:29 INFO client.RMProxy: Connecting to ResourceManager at master1/192.168.200.111:8032
21/10/20 10:43:30 INFO input.FileInputFormat: Total input paths to process : 1
21/10/20 10:43:30 INFO mapreduce.JobSubmitter: number of splits:1
21/10/20 10:43:31 INFO mapreduce.JobSubmitter: Submitting tokens for job: job_1631618032849_0002
21/10/20 10:43:31 INFO impl.YarnClientImpl: Submitted application application_1631618032849_0002
21/10/20 10:43:31 INFO mapreduce.Job: The url to track the job: http://master1:8088/proxy/application_1631618032849_0002/
21/10/20 10:43:31 INFO mapreduce.Job: Running job: job_1631618032849_0002

百度了一番後，根據一些思路，最後將mapred-site.xml最開始的配置由

<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
    <property>
       <name>mapreduce.framework.name</name>
       <value>yarn</value>
    </property>
</configuration>

改成這裡——

<configuration>
    <property>
       <name>mapreduce.job.tracker</name>
       <value>hdfs://master1:8001</value>
       <final>true</final>
    </property>
</configuration>

接著，重啟了hadoop叢集，就正常了，日誌資訊就沒有卡頓，而是一步執行完成，列印以下的日誌記錄——

過程如果沒有出現問題，就可以到最後一步，檢視統計完的結果。

三、獲取統計結果

以上步驟執行完後，直接輸入指令檢視output目錄下的資訊，可以看到，裡面生成了兩個檔案——

[root@192 hadoop-2.7.5]# hdfs dfs -ls /output
Found 2 items
-rw-r--r--   3 root supergroup          0 2021-10-20 12:47 /output/_SUCCESS
-rw-r--r--   3 root supergroup        101 2021-10-20 12:47 /output/part-r-00000

part-r-00000檔案是存放統計結果的，我們檢視一下——

[root@192 hadoop-2.7.5]# hdfs dfs -cat /output/part-r-00000
aaa	1
bbb	1
cccc	1
cdsvfbgf	1
dedaxa	1
dedef	1
dedf	2
ss	1
uyiuyi	1
xaxaxaxa	1
ytrytrgtrcdscdscdsc	1

對比前面的example.txt檔案，可以看到，當中dedf字串是有兩個，其他都是1個，hadoop統計結果也確實如此。

以上，便是初步認識hadoop的一個小案例，接下來，我會在學習過程當中把值得分享的經驗都總結下來。

作者：朱季謙出處：https://www.cnblogs.com/zhujiqian/ 本文版權歸作者和部落格園共有，歡迎轉載，但未經作者同意必須在文章頁面給出原文連結，否則保留追究法律責任的權利。

hadoop學習筆記：執行wordcount對檔案字串進行統計案例

文/朱季謙我最近使用四臺Centos虛擬機器搭建了一套分散式hadoop環境，簡單模擬了線上上的hadoop真實分散式叢集，主要用於業餘學習大資料相關體系。

Hadoop 學習筆記（十三）Map Reduce 執行機制(一)

1、Map Reduce 結構一個完整的mapreduce程式在分散式執行時有三類例項程序： MRAppMaster：負責整個程式的過程排程及狀態協調;

keil obj 檔案結構_C++多檔案結構和編譯預處理命令（學習筆記：第5章 07）

技術標籤：keil obj 檔案結構多檔案結構和編譯預處理命令[1] C++程式的一般組織結構

python學習筆記：對圖片素材進行背景透明處理

1.用python自帶方法處理，只是把圖片背景色變成底層surface同樣的顏色，圖片本身無變化

Spring WebFlux學習筆記：1概述

Spring Flux是一個完全非阻塞，非同步的web框架.支援和spring mvc接近的註解配置controler,還支援functional endpoint風格的配置.

C#佇列學習筆記：RabbitMQ延遲佇列

一、引言日常生活中，很多的APP都有延遲佇列的影子。比如在手機淘寶上，經常遇到APP派發的限時消費紅包，一般有幾個小時或24小時不等。假如在紅包倒計時的過程中，沒有消費掉紅包的話，紅包會自動失效。假如上述行為

C#佇列學習筆記：RabbitMQ優先順序佇列

原文:C#佇列學習筆記：RabbitMQ優先順序佇列一、引言在具體業務中可能會遇到一些要提前處理的訊息，比如普通客戶的訊息按先進先出的順序處理，Vip客戶的訊息要提前處理。在RabbitMQ中，訊息優先順序的實現方式是

C#佇列學習筆記：RabbitMQ實現客戶端相互通訊

原文:C#佇列學習筆記：RabbitMQ實現客戶端相互通訊一、引言 fanout型別的Exchange，路由規則非常簡單：它會把所有傳送到該Exchange的訊息，路由到所有與它繫結的Queue中。假設有一個聊天室，各個客戶端都訂閱在同

Java學習筆記：基本輸入、輸出資料操作例項分析

本文例項講述了Java學習筆記：基本輸入、輸出資料操作。分享給大家供大家參考，具體如下：

JAVA學習筆記：註釋、變數的宣告和定義操作例項分析

本文例項講述了JAVA學習筆記：註釋、變數的宣告和定義操作。分享給大家供大家參考，具體如下：

C#設計模式學習筆記：(6)介面卡模式

本筆記摘抄自：https://www.cnblogs.com/PatrickLiu/p/7640873.html，記錄一下學習過程以備後續查用。

C# ORM學習筆記：使用特性+反射實現簡單ORM

原文:C# ORM學習筆記：使用特性+反射實現簡單ORM 一、原理與環境在生成資料表的實體類時，利用自定義特性，給它打上表及欄位的特性，然後使用反射原理，將自定義特性拼接成增、刪、改、查對應的SQL，即可完成一個

利用執行緒對檔案進行分割

情景：將一個檔案進行分割以位元組進行平均分割成２份存入兩個檔案： import os

【Python學習筆記七】從配置檔案中讀取引數

將一些需要更改或者固定的內容存放在配置檔案中，通過讀取配置檔案來獲取引數，這樣修改以及使用起來比較方便

Vue 新手學習筆記：vue-element-admin 之安裝，配置及入門開發

所屬專欄：Vue 開發學習進步說實話都是逼出來的，對於前端沒幹過ES6都不會的人，vue視訊也就看了基礎的一些但沒辦法，接下來做微服務架構，前端就用 vue，這塊你負責。。。。說多了都是淚，腳手架框架布

MongoDB學習筆記：文件Crud Shell

原文：https://blog.csdn.net/leshami/article/details/52901240 一、查詢語法 db.collection.find( <query filter>, <projection> )db.collection.findOne()//僅僅返回單個文件，相當於使用limit

Django學習筆記：第九天專案AXF-01

【專案功能】 -- 主頁面顯示　　-- 資料查詢，顯示 -- 商品資料展示　　-- 級聯查詢，排序

Django學習筆記：第十天專案AXF-02使用者頁面

使用者啟用，認證 -- 途徑　　-- 郵件　　-- 簡訊　　-- 人工稽核 -- 郵件　　-- 傳送郵件

.NetCore學習筆記：六、Swagger API介面文件工具

Swagger一個優秀的Api介面文件生成工具。Swagger可以可以動態生成Api介面文件，有效的降低前後端人員關於Api介面的溝通成本，促進專案高效開發。

Python學習筆記：方法重寫的理解

方法的重寫：如果你的基類（父類）方法的功能不能滿足你的需求，在派生類（子類）中重寫定義一個基類擁有的方法，呼叫時使用派生類中重寫定義的方法。

hadoop學習筆記：執行wordcount對檔案字串進行統計案例

相關推薦