Hadoop(三) 大資料離線計算與實時計算
阿新 • • 發佈:2018-11-20
分享一下我老師大神的人工智慧教程吧。零基礎,通俗易懂!風趣幽默!http://www.captainbed.net/
也歡迎大家轉載本篇文章。分享知識,造福人民,實現我們中華民族偉大復興!
一、大資料離線計算:MapReduce計算模型
1、MapReduce是處理HDFS上的資料
2、MapReduce的思想來源是PageRank(搜尋排名),原理是進行分散式計算。
如上圖,網頁跳轉中,訪問網頁3的次數最多,也就是權重最大的為網頁3。比如京東、淘寶中給推薦的商品,就是近期訪問的比較多的商品。
MapReduce的思想是把一個大任務拆分成多個小任務,再把小任務的結果彙總,得到最後的結果。
3、資料都是歷史資料、資料已經存在(HDFS)
二、大資料實時計算:Apache Storm
1、特點:資料來源源不斷地產生,不停處理資料
2、例子:自來水廠
3、框架:Apache Storm、Spark Streaming
4、格式:storm jar jar檔案 任務的類名 任務的別名
storm jar storm-starter-topologies-1.0.3.jar.jar org.apache.storm.starter.WordCountTopology MyWC
三、搭建Hadoop的Eclipse開發環境(不推薦)
1、配置Hadoop Home
2、hadoop.dll複製到c:\windows\system32
3、配置環境變數
HADOOP_HOME
%HADOOP_HOME%/bin配置到PATH裡
4、推薦:MRUnit(MapReduce Unit),類似Junit
小結
對Hadoop的認識只停留在理論上,更多的操作在精力和時間的允許下有待實踐。