python實現單詞計數的mapreduce

阿新 • • 發佈：2019-02-07

map函式

import sys

for line in sys.stdin:
    line = line.strip()
    words = line.split()
    for word in words :
        print "%s\t%s" % (word , 1)

reduce函式

import sys
current_word=None
current_count=0


for line in sys.stdin:
    line=line.strip()
    word=line.split("\t",1)

    if current_word==word[0]:#當前單詞如果為本次傳過來的單詞，則計數加一
        current_count=current_count+1
        
    if current_word==None:#第一次判斷當前單詞是否為空，若為空，賦值，計數為一
        current_word=word[0]
        current_count=current_count+1

    elif current_word!=word[0]:#當前單詞如果不為本次傳過來的，則先把當前的輸出，再賦值，計數
        print "%s\t%s" %(current_word,current_count)
        current_count=1
        current_word=word[0]
print "%s\t%s" %(current_word,current_count)#列印迴圈結束後，最後一次的單詞

測試：

echo "hello word hello Hadoop map reduce" | ./mapper.py |sort -k1,1| ./reducer.py

Python只能對排好序的單詞進行計數，在Hadoop中會實現對單詞的排序

在Hadoop上執行：

bin/hadoop jar contrib/streaming/hadoop-*streaming*.jar \
-file test/code/mapper.py -mapper test/code/mapper.py \
-file test/code/reducer.py -reducer test/code/reducer.py \
-input /user/rte/hdfs_in/* -output /user/rte/hdfs_out

python實現單詞計數的mapreduce

map函式 import sys for line in sys.stdin: line = line.strip() words = line.split() for word in words : print "%s\t%s"

scala 兩種方法實現單詞計數

val lines = List("hello world", "hello spark") val wordlist = lines.flatMap(line => line.split(" ")).map(word => (word, 1))

Hadoop分佈環境搭建步驟,及自帶MapReduce單詞計數程式實現

參考騰訊雲實驗室 Hadoop分佈環境搭建步驟： 1.軟硬體環境 CentOS 7.2 64 位 JDK- 1.8 Hadoo p- 2.7.4 2.安裝SSH sudo yum install openssh-clients openssh-ser

【程序員筆試面試必會——排序②】Python實現計數排序、基數排序

16px 最大元素 size medium log n) python實現 count 一、計數排序概要：　　　　時間復雜度O(n)，空間復雜度O(k)，k是輸入序列的值的範圍（最大值-最小值），是穩定的。計數排序一般用於已知輸入值的範圍相對較小，比如給公司員工的身高

手動實現一個單詞統計MapReduce程序與過程原理分析

Hadoop MapReduce Java [toc] 手動實現一個單詞統計MapReduce程序與過程原理分析前言我們知道，在搭建好hadoop環境後，可以運行wordcount程序來體驗一下hadoop的功能，該程序在hadoop目錄下的share/hadoop/mapreduce目錄中

HDFS 手寫mapreduce單詞計數框架

一、資料處理類 package com.css.hdfs; import java.io.BufferedReader; import java.io.IOException; import java.io.InputStreamReader; import java.net.URI; import

Hadoop之MapReduce過程，單詞計數WordCount

單詞計數是最簡單也是最能體現MapReduce思想的程式之一，可以稱為MapReduce版“Hello World”，該程式的完整程式碼可以在Hadoop安裝包的src/example目錄下找到。單詞計數主要完成的功能：統計一系列文字檔案中每個單詞出現的次數，如下圖所示。 WordCo

類方法實現：用python實現一個簡單的單詞本，添加/查找/刪除單詞。

end code div keys style 成功 move print utf 1.實現一個簡單的單詞本，功能： ①添加單詞，當所添加的單詞已存在時，讓用戶知道 ②查找單詞，當查找的單詞不存在時，讓用戶知道 ③刪除單詞，當刪除的單詞不存在時，讓用戶知道以上

leetcode的python實現刷題筆記58:最後一個單詞的長度（取巧的做法和全網最正確的做法）

給定一個僅包含大小寫字母和空格 ' ' 的字串，返回其最後一個單詞的長度。如果不存在最後一個單詞，請返回 0 。說明：一個單詞是指由字母組成，但不包含任何空格的字串。示例: 輸入: "Hello World" 輸出: 5 一.取巧的做法思

Python實現生成一個單詞的圓形詞雲

效果實現開啟IDLE,新建檔案singleWord.py import numpy as np import matplotlib.pyplot as plt from wordcloud import WordCloud text = "Love" x, y = np.o

MapReduce實現單詞統計

mapreduce實現思路： Map階段： a) 從HDFS的源資料檔案中逐行讀取資料 b) 將每一行資料切分出單詞 c) 為每一個單詞構造一個鍵值對(單詞，1) d) 將鍵值對傳送給reduce Reduce階段： a)&nb

Python實現一個最簡單的MapReduce程式設計模型WordCount

MapReduce程式設計模型： Map：對映過程 Reduce：合併過程 import operator from functools import reduce # 需要處理的資料 lst = [ "Tom", "Jack",

python實現基於單詞級one-hot編碼和字元級的one-hot編碼

one-hot編碼是將標記轉換為向量的最常用、最基本的方法。它將每個單詞與一個唯一的整數索引相關聯，然後將這個整數索引 i 轉換為長度為N的二進位制向量（N是詞表大小），這個向量只有第i個元素是1，其餘元素都為0. 單詞級的one-hot編碼 import numpy

Scala +Spark+Hadoop+Zookeeper+IDEA實現WordCount單詞計數（簡單例項）

IDEA+Scala +Spark實現wordCount單詞計數一、新建一個Scala的object單例物件，修改pom檔案（1）下面文章可以幫助參考安裝 IDEA 和新建一個Scala程式。（2）pom檔案 <?xml

python連結串列計數實現

class Node(object): def init(self, val, next=None): self.val = val self.next = next 定義節點，變數都是指標，賦值直接self.val = val。但是這裡的含義還有點不太清楚 class Sol

機器學習：單詞拼寫糾正器python實現

01 樸素貝葉斯分類實戰前面介紹了貝葉斯的基本理論，樸素貝葉斯分類器，拉普拉斯修正，文章的連結如下：機器學習：說說貝葉斯分類樸素貝葉斯分類器：例子解釋樸素貝葉斯分類：拉普拉斯修正在這3篇推送中用例子詳細闡述了貝葉斯公式和樸素貝葉斯如何做分類

Python實現統計一篇英文文章內每個單詞的出現頻率的兩種很好解法

有一道Python面試題: 用python實現統計一篇英文文章內每個單詞的出現頻率，並返回出現頻率最高的前10個單詞及其出現次數。檔案的內容，就拷貝import this模組中的內容，檔名為: this.txt The Zen of Python, by Tim Peters Beauti

如何用Python實現任一個英文的純文字檔案，統計其中的單詞出現的個數？

import re file_name = 'test.txt' lines_count = 0 words_count = 0 chars_count = 0 words_dict = {}

領釦--最後一個單詞的長度--Python實現

給定一個僅包含大小寫字母和空格 ' ' 的字串，返回其最後一個單詞的長度。如果不存在最後一個單詞，請返回 0 。說明：一個單詞是指由字母組成，但不包含任何空格的字串。示例: 輸入: "Hello World" 輸出: 5 class Solution: def length

python實現計數排序、桶排序、基數排序

　　本篇程式碼在python3中可用，在python2中需要相應修改一些。　　計數排序、基數排序、桶排序則屬於非比較排序，演算法時間複雜度O(n)，優於比較排序。但是也有弊端，會多佔用一些空間，相當於是用空間換時間。 1，計數排序：　　計數排序的基本思

python實現單詞計數的mapreduce

相關推薦