1. 程式人生 > >熟悉常用的HBase操作,編寫MapReduce作業

熟悉常用的HBase操作,編寫MapReduce作業

true light 上傳文件 常用 文本 文件 關系型 清空 DC

1. 以下關系型數據庫中的表和數據,要求將其轉換為適合於HBase存儲的表並插入數據:

學生表(Student)(不包括最後一列)

學號(S_No)

姓名(S_Name)

性別(S_Sex)

年齡(S_Age)

課程(course)

2015001

Zhangsan

male

23

2015003

Mary

female

22

2015003

Lisi

male

24

數學(Math)85

2. 用Hadoop提供的HBase Shell命令完成相同任務:

  • 列出HBase所有的表的相關信息;list
  • 在終端打印出學生表的所有記錄數據;
  • 向學生表添加課程列族;
  • 向課程列族添加數學列並登記成績為85;
  • 刪除課程列;
  • 統計表的行數;count ‘s1‘
  • 清空指定的表的所有記錄數據;truncate ‘s1‘

3. 用Python編寫WordCount程序任務

程序

WordCount

輸入

一個包含大量單詞的文本文件

輸出

文件中每個單詞及其出現次數(頻數),並按照單詞字母順序排序,每個單詞和其頻數占一行,單詞和頻數之間有間隔

  1. 編寫map函數,reduce函數
  2. 將其權限作出相應修改
  3. 本機上測試運行代碼
  4. 放到HDFS上運行
  5. 下載並上傳文件到hdfs上
  6. 用Hadoop Streaming命令提交任務

create ‘Student‘, ‘ S_No  ‘,‘S_Name‘, ’S_Sex’,‘S_Age‘
put ‘Student‘,‘s001‘,‘S_No‘,‘2015001‘
put ‘Student‘,‘s001‘,‘S_Name‘,‘Zhangsan‘
put ‘Student‘,‘s001‘,‘S_Sex‘,‘male‘
put ‘Student‘,‘s001‘,‘S_Age‘,‘23‘
put ‘Student‘,‘s002‘,‘S_No‘,‘2015003‘
put ‘Student‘,‘s002‘,‘S_Name‘,‘Mary‘
put ‘Student‘,‘s002‘,‘S_Sex‘,‘female‘
put ‘Student‘,‘s002‘,‘S_Age‘,‘22‘
put ‘Student‘,‘s003‘,‘S_No‘,‘2015003‘
put ‘Student‘,‘s003‘,‘S_Name‘,‘Lisi‘
put ‘Student‘,‘s003‘,‘S_Sex‘,‘male‘
put ‘Student‘,‘s003‘,‘S_Age‘,‘24‘

  

list

  

scan ‘Student‘

  

alter ‘Student‘,NAME=>‘course‘ 

  

put ‘Student‘,‘3‘,‘course:Math‘,‘85‘

  

dorp ‘Student‘,‘course‘

  

count ‘Student‘

  

truncate ‘Student‘

  

熟悉常用的HBase操作,編寫MapReduce作業