1. 程式人生 > >Hadoop學習系列(2.Hadoop框架介紹與搜索技術體系介紹)

Hadoop學習系列(2.Hadoop框架介紹與搜索技術體系介紹)

消息 監控系統 mapreduce spa 文件系統 sql 平時 偽分布式 自己

第一天

2.Hadoop框架介紹與搜索技術體系介紹

1.大數據典型特性與分布式開發難點
2.Hadoop框架介紹與搜索技術體系介紹
3.Hadoop版本與特性介紹
4.Hadoop核心模塊之HDFS分布式文件系統架構介紹
5.Hadoop核心模塊之Yarn操作系統架構介紹
6.Linux安全禁用設置與JDK安裝講解
7.Hadoop偽分布式環境部署HDFS部分
8.Hadoop偽分布式環境部署Yarn和MR部分
9.Hadoop環境使用常見的錯誤集合
10.Hadoop環境常規設置與輔助功能講解(-)
11.Hadoop環境常規設置與輔助功能講解(二)
12.Windows環境下部署Eclipse插件註意事項

2.Hadoop框架介紹與搜索技術體系介紹

1.hadoop介紹

-》官網:http://hadoop.apache.org

-》hadoop商業三大發行版

-》Apache -》apache

-》cloudera -》CDH

-》hostonwork -》HDP

-》分布式

-》爬蟲

-》存儲(加硬盤,但是單臺機器是有限的)&處理分析

-》快速查詢

-》分開計算,結果合並

-》google-》Mapreduce論文

-》map

-》reduce

-》HDFS 文件系統和數據庫是不一樣的

-》HBase

-》搜索引擎的技術體系

-》數據獲取

-》(外網,互聯網抓取數據)

-》數據庫

-》數據存儲-》HDFS&Hbase

-》yarn操作系統

-》數據計算

-》sql實時查詢(消息隊列,監控系統)

-》輔助型框架,比如zookeeper

-》生成索引,搜索的索引(商品推薦和自己平時搜索的信息有關)

-》返回個前端用戶

-》離線系統-》hadoop生態圈

-》數據獲取

-》(外網,互聯網抓取數據)

-》雲存儲

-》全量或者增量導入(同步到hbase當中,sql語句當中)

-》復雜離線處理的過程(job運行,業務的邏輯,表的join,字段的合並)

-》mapreduce(實現全量或者增量數據的更新)

-》其他的框架實現實時數據的更新

這樣我整個的數據變化就可以實現秒級的速度 更新到搜索引擎




Hadoop學習系列(2.Hadoop框架介紹與搜索技術體系介紹)