Python實現mapreduce程式

阿新 • • 發佈：2019-01-29

一：目的

之前面試曾遇到面試官讓用python程式碼實現mapreduce中最簡單的demo WordCount,由於之前一直用java來寫hadoop程式，突然轉到python，是我產生了質疑，python與hadoop應該是不相容的，即使寫出來程式，到時候怎麼執行？一頭霧水最後導致面試失敗。後來通過查閱資料，研究mapreduce的底層實現，發現儘管Hadoop框架是用Java編寫的，但是為Hadoop編寫的程式不必非要Java寫，還可以使用其他語言開發，比如Python或C++(Haoop在0.14.1版本提供C++ API)，而mapreduce只是一種思想，跟語言無關。$HADOOP_HOME/src/examples/python/WordCount.py，你就可以明白我的意思了。
現在將會採用python語言實現wordcount並在hadoop上執行實現。

二：Python程式碼

map實現：

下面Python程式碼的一個“竅門”是我們將使用Hadoop流API(可以看下相關的維基條目)來幫助我們通過STDIN(標準輸入)和STDOUT(標準輸出)在Map和Reduce程式碼間傳遞資料。我們只是使用Python的sys.stdin讀取輸入資料和列印輸出到sys.stdout。這就是我們需要做的，因為Hadoop流將處理好一切。將下面的程式碼儲存在檔案 /home/hduser/mapper.py 中。它將從STDIN讀取資料，拆分為單詞並輸出一組對映單詞和它們數量(中間值)的行到STDOUT。儘管這個Map指令碼不會計算出單詞出現次數的總和(中間值)。相反，它會立即輸出( 1)元組的形式——即使某個特定的單詞可能會在輸入中出現多次。在我們的例子中，我們讓後續的Reduce做最終的總和計數。當然，你可以按照你的想法在你自己的指令碼中修改這段程式碼，但是，由於教學原因，我們在本教程中就先這樣做。:-)
請確保該檔案具有可執行許可權(chmod +x /home/hduser/mapper.py )，否則你會遇到問題。
這裡寫圖片描述

reduce實現：

　　將下面的程式碼儲存在檔案 /home/hduser/reducer.py 中。它將從STDIN讀取mapper.py的結果(因此mapper.py的輸出格式和reducer.py預期的輸入格式必須匹配)，然後統計每個單詞出現的次數，最後將結果輸出到STDOUT中。
　　請確保該檔案具有可執行許可權(chmod +x /home/hduser/reducer.py )，否則你會遇到問題。
　　這裡寫圖片描述

程式碼測試(cat data | map | sort | reduce):

在MapReduce作業中使用它們之前，我建議先在本地測試你的mapper.py和reducer.py指令碼。否則，你的作業可能成功完成了但沒有作業結果資料或得到了不是你想要的結果。如果發生這種情況，很有可能是你(或我)搞砸了。這裡有一些想法，關於如何測試這個Map和Reduce指令碼的功能。
這裡寫圖片描述

執行程式碼：

下載示例輸入資料

　　下載每個檔案為純文字檔案，以UTF-8編譯並且將這些檔案儲存在一個臨時目錄中，如/tmp/gutenberg。

　　說明：你將需要在你的Cloudera虛擬機器中開啟瀏覽器。選擇適當的檔案下載(UTF-8 版本)，它將顯示在你的瀏覽器中。點選滑鼠右鍵按鈕來儲存該檔案。給它一個合適的名稱(如”Ulysses”)，並注意它將儲存在下載目錄中。
　　這裡寫圖片描述
　將本地示例資料拷貝到HDFS

　　在我們執行實際的MapReduce作業前，我們首先必須從我們本地檔案系統中拷貝檔案到Hadoop的HDFS內。

　　*說明：

　　我們假設你是在你的下載目錄中。我們必須在HDFS中建立一個子目錄，然後拷貝檔案過來。最後，我們驗證拷貝檔案成功。

　　首先，我們在HDFS中建立子目錄MyFirst：

　　[[email protected] Downloads]$ hadoop fs -mkdir MyFirst

　　然後，我們拷貝檔案。注意，三個檔案以.txt結尾：

　　[[email protected] Downloads]$ hadoop fs -copyFromLocal *.txt MyFirst

　　最後，我們驗證拷貝成功：

　　[[email protected] Downloads]$ hadoop fs -ls MyFirst

　　Found 3 items

　　-rw-r–r– 1 cloudera cloudera 1423803 2014-11-30 08:02 MyFirst/Leonardo.txt

　　-rw-r–r– 1 cloudera cloudera 674570 2014-11-30 08:02 MyFirst/OutlineOfScience.txt

　　-rw-r–r– 1 cloudera cloudera 1573150 2014-11-30 08:02 MyFirst/Ulysses.txt
　這裡寫圖片描述
執行MapReduce作業

　　*說明：

　　執行MapReduce作業，敲入如下命令：

　　[[email protected] ~]$ hadoop jar /usr/lib/hadoop-0.20-mapreduce/contrib/streaming/hadoop-streaming.jar -file mapper.py -mapper mapper.py

　　-file reducer.py -reducer reducer.py -input MyFirst/* -output MyFirst4-output

　　你會收到有關檔案被棄用的警告，不用擔心。重要的是：當你發出這條命令時，輸出目錄(在這個示例中是MyFirst-output)不存在。

　　驗證這個程式工作正常。首先，輸入命令：hadoop fs -ls MyFirst4-output

　　[[email protected] ~]$ hadoop fs -ls MyFirst4-output

　　Found 2 items

　　-rw-r–r– 1 cloudera cloudera 0 2014-11-30 09:23 MyFirst4-output/_SUCCESS

　　-rw-r–r– 1 cloudera cloudera 880829 2014-11-30 09:23 MyFirst4-output/part-00000

　　然後，檢視輸出檔案：

　　[[email protected] ~]$ hadoop fs -cat MyFirst4-output/part-00000

　　將檔案從HDFS中拷入到你本地檔案系統中：

　　[[email protected] ~]$ hadoop fs -copyToLocal MyFirst4-output/part-00000

　　MyFirstOutputLocal.txt

　　現在，一切都準備好了，我們終於可以在Hadoop叢集上執行我們的Python MapReduce作業了。如上所述，我們使用Hadoop流API通過STDIN和STDOUT在Map和Reduce間傳遞資料。
　　這裡寫圖片描述
如果你想要在執行的時候修改Hadoop引數，如增加Reduce任務的數量，你可以使用-D選項：

　　[email protected]:/usr/local/hadoop$ bin/hadoop jar contrib/streaming/hadoop-streaming.jar -D mapred.reduce.tasks=16 …

　　關於mapred.map.tasks說明：Hadoop does not honor mapred.map.tasks beyond considering it a hint。但是，Hadoop接受使用者指定mapred.reduce.tasks並且不操作。你不能強制指定mapred.map.tasks，但可以指定mapred.reduce.tasks。

　　這個任務將讀取HDFS目錄/user/hduser/gutenberg中的所有檔案，處理它們，並將結果儲存在HDFS目錄/user/hduser/gutenberg-output中。一般情況下，Hadoop對每個reducer產生一個輸出檔案;在我們的示例中，然而它將只建立單個檔案因為輸入的檔案都很小。

　　在終端中前一個命令的輸出示例︰
這裡寫圖片描述
使用Python語言寫Hadoop MapReduce程式
　　**譯者說明：截圖中的命令不完整，完整命令如下：

　　[email protected]:/usr/local/hadoop$ bin/hadoop jar contrib/streaming/hadoop-streaming.jar -mapper /home/hduser/mapper.py -reducer /home/hduser/reducer.py -input /user/hduser/gutenberg/* -output /user/hduser/gutenberg-output

Python實現mapreduce程式

Python實現mapreduce程式

python實現小程式

python實現UDP程式通訊

用python實現抽獎小程式的自動抽獎！公司抽獎必背技能！

python實現Excel檔案讀取的程式（附原始碼）

python實現一個簡單的ftp程式

Python實現一個最簡單的MapReduce程式設計模型WordCount

Python Hadoop Mapreduce 實現Hadoop Streaming分組和二次排序

介面測試基礎（fiddler、postman的使用、python實現測試介面程式）

python實現的發紅包程式

利用Python的requests模組實現翻譯程式

Python實現微信小程式支付功能

Maven工程的MapReduce程式3---實現統計各部門員工薪水總和功能(優化)

倒排索引的分散式實現（MapReduce程式）

博導推薦給我一本基於Python實現爬蟲的書, 最適合程式猿們看的!

用Python實現人工造雪，誰說程式設計師不懂浪漫！

python實現簡單的抽獎小程式，抽獎的內容從檔案裡面讀取

python實現增刪改查電話本程式筆記

基於XML和Python實現白盒測試程式與測試用例分離

基於Jupyter平臺通過python實現Spark的應用程式之wordCount

Python實現mapreduce程式

相關推薦