Hadoop+python入門整合測試程式碼

阿新 • • 發佈：2019-01-02

一詞頻統計WordCount（類似TF）

屬於大資料框架中最經典的案例：
統計檔案中每個單詞出現的個數

1.1、準備資料

# 建立目錄
$ hdfs dfs -mkdir -p /user/cloudera/wordcount/input 

#安裝上傳模組
$ sudo yum install -y lrzsz 

#建立檔案，並編輯
$ touch wordcount_mapper.py  
$ touch wordcount_reducer.py
$ vim wordcount_mapper.py
$ vim wordcount_reducer.py

#上傳測試模組（檔案）
rz  wordcount_mapper. 
py
rz  wordcount_reducer.py 

# 上傳資料檔案
$ hdfs dfs -put /home/cloudera/bigdata/wc.data /user/cloudera/wordcount/input

1.2、使用Python編碼，實現wordcount統計

    - input 
        要讀取處理分析資料的路徑 
        預設情況下，一行一行的讀取檔案中的資料 
    - mapper
        函式 ，進行分析處理
    - reducer
        函式，合併map函式輸出的結果 
    
    當使用Python開發完成mapper. 
py和reduce.py指令碼以後，在linux系統上要執行的話，需要給予執行許可權，命令如何：
    $ chmod u+x wordcount_mapper.py
    $ chmod u+x wordcount_reducer.py

    本地測試：
    - wordcount_mapper.py
        $ echo "hadoop mapreduce mapreduce python" | python wordcount_mapper.py
    - wordcount_reducer.py
        $ echo "hadoop mapreduce mapreduce python" 
 | python  wordcount_mapper.py | python wordcount_reducer.py

1.3、執行Python編寫的WordCountt在YARN

hadoop jar \
/usr/lib/hadoop-mapreduce/hadoop-streaming-2.6.0-cdh5.12.0.jar \
-files /home/cloudera/word_count/wordcount_mapper.py,\
/home/cloudera/word_count/wordcount_reducer.py \
-mapper "python wordcount_mapper.py" \
-reducer "python wordcount_reducer.py" \
-input /user/cloudera/wordcount/input.wc \
-output /user/cloudera/wordcount/output
----------------------------------------------------------------
    -a. 第一點：
        提交執行Hadoop 中MapReduce執行在YARN上
        hadoop jar / yarn jar 
    -b. 第二點：
        -files 引數 將Python編寫指令碼檔案上傳到叢集上，以便叢集中各個叢集下載使用
        要求叢集中各個機器上必須按照同一版本、同一目錄的Python
    -c. 第三點：
        指定 input、output、mapper和reducer各個引數的值

這裡寫圖片描述

二、IBM股票價格資料：

	1962-01-02,7.713333,7.713333,7.626667,7.626667,0.689273,387200

    日期，開盤價，最高價，最低價，收盤價，調整的收盤價和交易量
    Date,Open,High,Low,Close,Adj Close,Volume

	統計每日變化百分比總數
	    每日變化百分比 = （開盤價-收盤價）/ 開盤價
	
	1. 統計每日變化百分比  
	    0.23%   0.24%  -0.13%

2.1開發程式：

-a. 建立目錄stock，拷貝wordcount_mapper.py和wordcount_reducer.py檔案至stock目錄
    重新命名檔案：
    $ mv wordcount_mapper.py stock_mapper.py
    $ mv wordcount_reducer.py stock_reducer.py
-b. 開發程式碼
-c. 本地測試：
    $ more stock-ibm.csv | python stock_mapper.py | sort -k1| python stock_reducer.py > stock-ibm.output
-d. 叢集測試
    讀取HDFS上的資料，將程式提交執行在YARN上。 

------------------------------------------------------------------------------
#/user/bin/python
#encoding:utf-8

import sys

for line in  sys.stdin:
	row = line.split(","):
	open_price = float(row[1])
	close_price = float(row[-3])
	change = (open_price-close_price)/open_price*100
	change_text = str(round(change,1))+"%"
		print "%s\t%d" % (change_text,1)

#!/user/bin/python
# encoding:utf-8

import sys
current_word = None
current_count = 1
	for line in sys.stdin:
		word,count = line.strip().split('\t')
		#判斷當前是否存在單詞
		if current_word:
			if word == current_word:
				current_count += int(count)
			else:
				print "%s\t%d"%(current_word,current_count)
				current_count =1
				
		current_word = word    #賦值當前單詞
	
	if current_count >=1:    #處理讀出最後一行資料
		print "%s\t%d"%(current_word,current_count)

Hadoop+python入門整合測試程式碼

一詞頻統計WordCount（類似TF）屬於大資料框架中最經典的案例：統計檔案中每個單詞出現的個數 1.1、準備資料 # 建立目錄 $ hdfs dfs -mkdir -p /user/clo

python的單元測試程式碼編寫流程

單元測試: 　　單元測試是對單獨的程式碼塊分別進行測試, 以確保它們的正確性, 單元測試主要還是由開發人員來做, 其餘的整合測試和系統測試由專業的測試人員來做. python的單元測試程式碼編寫主要記住以下幾點: 　　1. 需要匯入 unittest模組　　2. 需要繼承自 unittest.TestCas

python 介面自動化測試--程式碼實現（八）

用例讀入資料庫： #! /usr/bin/python # coding:utf-8 import sys,os from Engine import DataEngine reload(sys) sys.setdefaultencoding( "utf-8") fro

python 介面自動化測試--程式碼實現（七）

資料庫還原指令碼： #! /usr/bin/python # coding:utf-8 import time from Engine.SqlEngine import MSSQL COUNT=1 def restoreRelease(): global COUNT

Hadoop基礎-MapReduce入門篇之編寫簡單的Wordcount測試程式碼

　　　　　　　　　　　　Hadoop基礎-MapReduce入門篇之編寫簡單的Wordcount測試程式碼　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　作者：尹正傑版權宣告：原創作品，謝絕轉載！否則將追究法律責任。　　　

25 【python入門指南】如何編寫測試程式碼

python如何編寫測試程式碼 python內建了unittest，使得寫應用層的單元測試變得超乎尋常的簡單。 1，執行單個測試函式 #!/bin/python import unittest class TestMathFunc(unittest.TestCase):

《Python程式設計從入門到實踐》記錄之測試程式碼（unitttest模組）

unittest模組提供了測試程式碼工具。單元測試：用於核實函式的某個方面沒有問題測試用例：一組單元測試，這些單元測試一起核實函式在各種情形下的行為都符合要求。函式編寫測試用例時，要匯入模組unittest和要測試的函式，再建立一個繼承unittest.TestCase的類，並

《Python 程式設計：從入門到實踐》第十一章(測試程式碼)練習題答案

# -*- coding: gbk -*- def country_city(country,city,population=''): return(country.title()+","+city.title()+population) #11-2 imp

Python程式設計從入門到實踐筆記——測試程式碼（一篇足夠）

11 測試程式碼　　編寫函式或類時，還可為其編寫測試。通過測試，可確定程式碼面對各種輸入都能夠按要求的那樣工作。在程式中新增新程式碼時，你也可以對其進行測試，確認它們不會破壞程式既有的行為。　　在本章中，你將學習如何使用Pyt

《Python程式設計：從入門到實踐》第11章-測試程式碼習題

文章目錄 11-1 城市和國家 11-2 人口數量注意： 11-3 僱員 11-1 城市和國家編寫一個函式，它接受兩個形參：一個城市名一個國家名。這個函式

Python程式設計從入門到實踐筆記——測試程式碼

11 測試程式碼　　編寫函式或類時，還可為其編寫測試。通過測試，可確定程式碼面對各種輸入都能夠按要求的那樣工作。在程式中新增新程式碼時，你也可以對其進行

python TensorFlow 測試程式碼

import tensorflow as tf import numpy as np #create data x_data = np.random.rand(100).astype(np.float32) y_data = x_data*0.1 + 0.3 ###create tensorfl

小象學院Python入門基礎課程-三、新建pycharm工程 create New Project+新增需要的第三方庫+映象推薦#直譯器缺失怎麼辦＃整合檔案式和命令列式程式設計

1．選擇新建一個Pure Python專案，新建專案路徑可以在Location處選擇。 2.Project Interpreter部分是選擇新建專案所依賴的python庫，第一個選項會在專案中簡歷一個venv（virtualenv）目錄，這裡存放一個虛擬的python環境。這裡所有

25 【python入門指南】如何編寫測試代碼

case 函數名 assert 編寫 run http min ner 集中管理 python如何編寫測試代碼 python內置了unittest，使得寫應用層的單元測試變得超乎尋常的簡單。 1，執行單個測試函數 #!/bin/python impor

python 執行selenium的測試程式碼mark

之前一直都是在用java寫的selenium測試框架。今天突然有感而發不是python 也能玩起來。於是沒有真正在python上執行過例子。那就來個demo 記錄下。安裝python 安裝 pip 安裝python的selenium 包這些就跳過了。今天就

Softmax程式碼實現（Python，附測試）

import numpy as np import math from matplotlib import pyplot as plt from sklearn import datasets #計算假設的“相對概率”分佈,注意防止指數運算資料溢位 dataset: m*(n+1) the

python入門機器學習，3行程式碼搞定線性迴歸

　　本文著重是重新梳理一下線性迴歸的概念，至於幾行程式碼實現，那個不重要，概念明確了，程式碼自然水到渠成。　　“機器學習”對於普通大眾來說可能會比較陌生，但是“人工智慧”這個詞簡直是太火了，即便是風雲變化的股市中，只要是與人工智慧、大資料、雲端計算相關的概念股票都會有很好的表現。機器學習是實現人工智慧的基

入門｜三行Python程式碼，讓資料預處理速度提高2到6倍 python入門

在 Python 中，我們可以找到原生的並行化運算指令。本文可以教你僅使用 3 行程式碼，大大加快資料預處理的速度。入門｜三行Python程式碼，讓資料預處理速度提高2到6倍 Python 是機器學習領域內的首選程式語言，它易於使用，也有很多出色的庫來幫助你更

第3章：Maven使用入門/3.3 編寫測試程式碼

編寫測試程式碼在約定src/test/java下新建測試程式碼類 `package com.wys.myapp.helloworld; import org.junit.Test;import static org.junit.Assert.*;

python面向物件入門：從程式碼複用開始

本文從程式碼複用的角度一步一步演示如何從python普通程式碼進化到面向物件，並通過程式碼去解釋一些面向物件的理論。所以，本文前面的內容都是非面向物件的語法實現方式，只有在最結尾才給出了面向物件的簡單語法介紹。各位道兄不妨一看，如果留下點筆墨指導，本人感激不盡。最初程式碼 3種動物牛Cow、羊Sheep、

Hadoop+python入門整合測試程式碼

一 詞頻統計WordCount（類似TF）

1.1、準備資料

1.2、使用Python編碼，實現wordcount統計

1.3、執行Python編寫的WordCountt在YARN

二、IBM股票價格資料：

2.1開發程式：

相關推薦

一詞頻統計WordCount（類似TF）