Hadoop學習系列(2.Hadoop框架介紹與搜索技術體系介紹)
2.Hadoop框架介紹與搜索技術體系介紹
1. | 大數據典型特性與分布式開發難點 |
2. | Hadoop框架介紹與搜索技術體系介紹 |
3. | Hadoop版本與特性介紹 |
4. | Hadoop核心模塊之HDFS分布式文件系統架構介紹 |
5. | Hadoop核心模塊之Yarn操作系統架構介紹 |
6. | Linux安全禁用設置與JDK安裝講解 |
7. | Hadoop偽分布式環境部署HDFS部分 |
8. | Hadoop偽分布式環境部署Yarn和MR部分 |
9. | Hadoop環境使用常見的錯誤集合 |
10. | Hadoop環境常規設置與輔助功能講解(-) |
11. | Hadoop環境常規設置與輔助功能講解(二) |
12. | Windows環境下部署Eclipse插件註意事項 |
2.Hadoop框架介紹與搜索技術體系介紹
1.hadoop介紹
-》官網:http://hadoop.apache.org
-》hadoop商業三大發行版
-》Apache -》apache
-》cloudera -》CDH
-》hostonwork -》HDP
-》分布式
-》爬蟲
-》存儲(加硬盤,但是單臺機器是有限的)&處理分析
-》快速查詢
-》分開計算,結果合並
-》google-》Mapreduce論文
-》map
-》reduce
-》HDFS 文件系統和數據庫是不一樣的
-》HBase
-》搜索引擎的技術體系
-》數據獲取
-》(外網,互聯網抓取數據)
-》數據庫
-》數據存儲-》HDFS&Hbase
-》yarn操作系統
-》數據計算
-》sql實時查詢(消息隊列,監控系統)
-》輔助型框架,比如zookeeper
-》生成索引,搜索的索引(商品推薦和自己平時搜索的信息有關)
-》返回個前端用戶
-》離線系統-》hadoop生態圈
-》數據獲取
-》(外網,互聯網抓取數據)
-》雲存儲
-》全量或者增量導入(同步到hbase當中,sql語句當中)
-》復雜離線處理的過程(job運行,業務的邏輯,表的join,字段的合並)
-》mapreduce(實現全量或者增量數據的更新)
-》其他的框架實現實時數據的更新
這樣我整個的數據變化就可以實現秒級的速度 更新到搜索引擎
Hadoop學習系列(2.Hadoop框架介紹與搜索技術體系介紹)