Streaming執行Python版WordCount

阿新 • • 發佈：2017-10-09

hadoop streaming python

一：先寫map類

import sys
for line in sys.stdin:
line = line.strip( )
words = line.split( )
for word in words:
print(‘%s\t%s‘ % (word, 1))

二：寫reduce類

import sys
current_word = None
current_count = 0
word = None
for line in sys.stdin:
line = line.strip()
word, count = line.split(‘\t‘,1)
try:
count = int(count)
except ValueError:
continue
if current_word == word:
current_count += count
else:
if current_word:
print(‘%s\t%s‘ % (current_word,current_count))
current_count = count
current_word = word
if current_word == word:
print(‘%s\t%s‘ % (current_word,current_count))

三：利用hadoop Streaming執行Python的內容。

hadoop jar /home/hadoop/hadoop-2.6.0-cdh5.5.2/share/hadoop/tools/lib/hadoop-streaming-2.6.0-cdh5.5.2.jar -input /user/hadoop/aa.txt -output /user/hadoop/python_output -mapper "python mapper.py" -reducer "python reducer.py" -file mapper.py -file reducer.py

說明：

輸入和輸出路徑，本身就是hdfs上的，不需要特殊指定hdfs。

不加黃色部分的引號的話，會報錯誤：

Error: java.lang.RuntimeException: PipeMapRed.waitOutputThreads(): subprocess failed with code 2

不加粉色部分的內容的話，會報錯誤：

Error: java.lang.RuntimeException: Error in configuring object

本文出自 “白話” 博客，請務必保留此出處http://feature09.blog.51cto.com/12614993/1970964

Streaming執行Python版WordCount

hadoop streaming python 一：先寫map類import sys for line in sys.stdin: line = line.strip( ) words = line.split( ) for word in words: print(‘%s\t%s‘ % (wor

在android上編譯和執行python版的tensorflow

Tensorflow採用python作為主語言，雖然tensorflow提供了運行於android的例子，但採用是java。基於原始碼，採用NDK，可以編譯出android版本的tensorflow。編譯環境採用ubuntu 16.04，NDK使用r13b

sparkStreaming+kafka python版wordcount申請資源不成功

ERROR:py4j.java_gateway:Error while sending or receiving. Traceback (most recent call last): File "/root/hadoop/tmp/nm-local-dir/userca

執行caffe版(python)faster RCNN

第一步：安裝python包依賴 sudo pip install Cython sudo pip install easydict 第二步：下載原始碼 git clone --recursive https://github.com

python網路聊天器多執行緒版

在之前的一篇文章（python網路程式設計-udp）中實現了一個簡單的udp聊天器，只能在單執行緒下進行收發資料，在學習完多執行緒之後，實現一個能同時收發資料的udp聊天器。說明：編寫一個有2個執行緒的程式執行緒1用來接收資料然後顯示執行緒2用來檢測鍵盤資料然後通過udp傳送資料

flink安裝以及執行自帶wordcount示例（單機版，無hadoop環境）

1、下載安裝包到/opt目錄 2、解壓安裝包 tar zxf flink-1.6.1-bin-hadoop26-scala_2.11.tgz 3、啟動flink cd /opt/flink-1

Python版計算程式執行時間

我以前在C語言中介紹過計算程式執行時間的方法，該計算方法容易理解，具體步驟如下： 1.在程式開始執行前獲取當前的時間，並且記錄該時間 2.執行某個程式，以便統計該程式的執行時間 3.在程式執行結束後獲

python版通用後臺賬號密碼多執行緒爆破必殺器

#! /usr/bin/env python2.7 #coding=utf-8 #通用後臺賬號密碼多執行緒爆破必殺器 import re import os import sys import gzip import Queue import getopt import

hadoop streaming anaconda python 計算平均值

sdn cat pipe cal 存在格式 ins too stream 原始Liunx 的python版本不帶numpy ，安裝了anaconda 之後，使用hadoop streaming 時無法調用anaconda python ，後來發現是參數沒設置好。。。

劍指Offer-- 翻轉鏈表（python版）

head 鏈表 pytho blog write ini pre 當前返回輸入一個鏈表，反轉鏈表後，輸出鏈表的所有元素。 # -*- coding:utf-8 -*- # class ListNode: # def __init__(self, x): #

編碼的秘密（python版）

默認字節數二進制格式 type eight 符號占用終端自己編碼（python版）最近在學習python的過程中，被不同的編碼搞得有點暈，於是看了前人的留下的文檔，加上自己的理解，準備寫下來，分享給正在為編碼苦苦了掙紮的你。編碼的概念編碼就是將信息從一

用nohup執行python程序時，print無法輸出

知識庫 ase str 輸出 bsp word 啟用 python test nohup Python test.py > nohup.out 2>&1 & 發現nohup.out中顯示不出來python程序中print的東西。這是因為pyt

代碼這樣寫更優雅（Python 版）(轉載)

python 初學 return 閱讀沒有邏輯刪除元素 python3 list ask 　　轉載：https://mp.weixin.qq.com/s?timestamp=1498528588&src=3&ver=1&signature=Df

window設置定時任務執行python腳本

windows 執行python腳本首先打開windows自帶的任務計劃程序：註：添加參數那裏為python腳本所在的位置，起始於可填可不填，程序或腳本那裏如果設置了環境變量可以直接填python.exe。本文出自 “王家東哥” 博客，謝絕轉載！window設置定時任務執行python腳本

SublimeText3按ctrl+b執行python無反應

查看安裝 shel ges 現象其它 mage log esp 現象：在Sublime中打開.py文件，按”ctrl+b”執行時無反應。點擊工具->編譯系統中已經有且識別到Python，但執行”run（ctrl+shift+b）”時無反應，Sublime左下角提示

執行Python出現LookupError: unknown encoding: cp65001解決辦法

blog spa log span per odin 出現 class err 執行Python出現LookupError: unknown encoding: cp65001錯誤 dos下執行以下命令即可 chcp 1252 以上。執行Python出現Loo

linux定時任務執行python腳本

rsyslog default and conf home 查看 day clean oom 企業微信應用--值日生，每周一三五發消息給同學打掃衛生。腳本利用linux的定時任務crontab來執行，每天跑一遍。 1.開啟crontab日誌。 crontab默認不開啟日誌，

【Spark MLlib速成寶典】模型篇04樸素貝葉斯【Naive Bayes】（Python版）

width pla evaluate 特征 mem order 一個數 ble same 目錄　　樸素貝葉斯原理　　樸素貝葉斯代碼(Spark Python) 樸素貝葉斯原理　　詳見博文：http://www.cnblogs.com/itmor

【Spark MLlib速成寶典】模型篇05決策樹【Decision Tree】（Python版）

back filter oms sse mlu eval ffffff size red 目錄　　決策樹原理　　決策樹代碼(Spark Python) 決策樹原理　　詳見博文：http://www.cnblogs.com/itmorn/p/79

常見查找算法之php, js,python版

elseif lis mat 排序 asc 查找 http import target 常用算法 >>>1. 順序查找, 也叫線性查找, 它從第一個記錄開始, 挨個進行對比, 是最基本的查找技術 javaScript 版順序查找算法: 1 // 順

Streaming執行Python版WordCount

相關推薦