熟悉常用的HBase操作,編寫MapReduce作業
阿新 • • 發佈:2018-05-04
true light 上傳文件 常用 文本 文件 關系型 清空 DC
1. 以下關系型數據庫中的表和數據,要求將其轉換為適合於HBase存儲的表並插入數據:
學生表(Student)(不包括最後一列)
學號(S_No) |
姓名(S_Name) |
性別(S_Sex) |
年齡(S_Age) |
課程(course) |
2015001 |
Zhangsan |
male |
23 |
|
2015003 |
Mary |
female |
22 |
|
2015003 |
Lisi |
male |
24 |
數學(Math)85 |
2. 用Hadoop提供的HBase Shell命令完成相同任務:
- 列出HBase所有的表的相關信息;list
- 在終端打印出學生表的所有記錄數據;
- 向學生表添加課程列族;
- 向課程列族添加數學列並登記成績為85;
- 刪除課程列;
- 統計表的行數;count ‘s1‘
- 清空指定的表的所有記錄數據;truncate ‘s1‘
3. 用Python編寫WordCount程序任務
程序 |
WordCount |
輸入 |
一個包含大量單詞的文本文件 |
輸出 |
文件中每個單詞及其出現次數(頻數),並按照單詞字母順序排序,每個單詞和其頻數占一行,單詞和頻數之間有間隔 |
- 編寫map函數,reduce函數
- 將其權限作出相應修改
- 本機上測試運行代碼
- 放到HDFS上運行
- 下載並上傳文件到hdfs上
- 用Hadoop Streaming命令提交任務
create ‘Student‘, ‘ S_No ‘,‘S_Name‘, ’S_Sex’,‘S_Age‘ put ‘Student‘,‘s001‘,‘S_No‘,‘2015001‘ put ‘Student‘,‘s001‘,‘S_Name‘,‘Zhangsan‘ put ‘Student‘,‘s001‘,‘S_Sex‘,‘male‘ put ‘Student‘,‘s001‘,‘S_Age‘,‘23‘ put ‘Student‘,‘s002‘,‘S_No‘,‘2015003‘ put ‘Student‘,‘s002‘,‘S_Name‘,‘Mary‘ put ‘Student‘,‘s002‘,‘S_Sex‘,‘female‘ put ‘Student‘,‘s002‘,‘S_Age‘,‘22‘ put ‘Student‘,‘s003‘,‘S_No‘,‘2015003‘ put ‘Student‘,‘s003‘,‘S_Name‘,‘Lisi‘ put ‘Student‘,‘s003‘,‘S_Sex‘,‘male‘ put ‘Student‘,‘s003‘,‘S_Age‘,‘24‘
list
scan ‘Student‘
alter ‘Student‘,NAME=>‘course‘
put ‘Student‘,‘3‘,‘course:Math‘,‘85‘
dorp ‘Student‘,‘course‘
count ‘Student‘
truncate ‘Student‘
熟悉常用的HBase操作,編寫MapReduce作業