大資料的基本概念
阿新 • • 發佈:2019-01-28
什麼是大資料?
1.統計處資料指標(有海量資料)
2.做資料處理(挖掘有用的東西)
處理海量資料的核心技術:
1.海量資料儲存:分散式
2.海量資料運算:分散式
已經有成熟的儲存框架:
1.HDFS--分散式檔案儲存系統(例如Word(直觀區別))
2.HBASE--分散式資料庫系統(例如表格((四要素:增刪改查)查詢也更加方便)但最終也存到檔案但是經過精心設計的)
3.KAFKA--分散式訊息快取系統(實時流式資料處理場景中應用廣泛,訊息頭,訊息體等一系列,但最終也存到檔案裡)
已經有成熟的運算框架:(要解決的核心問題就是幫助使用者處理邏輯在很多機器上並行)
1.MAPREDUCE--HADOOP中的運算框架
2.SPARK--離線批處理/實時流式計算(離線批處理例如水桶,一桶滿處理(看企業))
3.STORM--實時流式計算(例如水流出著處理著)
輔助工具:(解放我們的一些繁瑣工作)
1.HIVE--資料倉庫工具(可以接收sql,翻譯成MapReduce或者spark程式執行)
2.FLUME--資料採集
3.SQOOP--資料遷移(展示東西太亂要遷移到成熟的軟體上例如遷移到表上)
4.ELASTIC SEARCH--分散式搜尋引擎
等還有很多
大資料在現實生活中的具體應用:
1.資料處理的最典型的應用:公司產品運營情況分析
(例如網站會員為什麼增多,為什麼活躍,年齡段,會員續費等)
例如:友盟網站
2.電商推薦系統:購物行為資料,海量瀏覽行為,大量演算法模型運算進行商品推薦
例如淘寶
3.精準廣告推薦系統:投給想看的人看,例如衛生巾絕對不會投給男性看,進行海量的網際網路的使用者的各類資料,統計分析,進行使用者畫像,(得到你的各種標籤例如你是寶媽推薦奶粉,是愛狗的推薦狗糧)分析敏感資訊(例如發現壞的輿論源頭)
例如:ofo:分析使用者路線,使用者數量
大資料我認為的就先到這裡