1. 程式人生 > >理解MapReduce

理解MapReduce

上傳 出現 str 一行 ado reduce 數據格式 函數 存在

1. 用Python編寫WordCount程序並提交任務

程序

WordCount

輸入

一個包含大量單詞的文本文件

輸出

文件中每個單詞及其出現次數(頻數),並按照單詞字母順序排序,每個單詞和其頻數占一行,單詞和頻數之間有間隔

  1. 編寫map函數,reduce函數
  2. 將其權限作出相應修改
  3. 本機上測試運行代碼
  4. 放到HDFS上運行
    1. 將之前爬取的文本文件上傳到hdfs上
    2. 用Hadoop Streaming命令提交任務
  5. 查看運行結果

2. 用mapreduce 處理氣象數據集

編寫程序求每日最高最低氣溫,區間最高最低氣溫

  1. 氣象數據集下載地址為:ftp://ftp.ncdc.noaa.gov/pub/data/noaa
  2. 按學號後三位下載不同年份月份的數據(例如201506110136號同學,就下載2013年以6開頭的數據,看具體數據情況稍有變通)
  3. 解壓數據集,並保存在文本文件中
  4. 對氣象數據格式進行解析
  5. 編寫map函數,reduce函數
  6. 將其權限作出相應修改
  7. 本機上測試運行代碼
  8. 放到HDFS上運行
    1. 將之前爬取的文本文件上傳到hdfs上
    2. 用Hadoop Streaming命令提交任務
  9. 查看運行結果

理解MapReduce