1. 程式人生 > >大資料的基本概念

大資料的基本概念

什麼是大資料?

1.統計處資料指標(有海量資料)

2.做資料處理(挖掘有用的東西)

處理海量資料的核心技術:

1.海量資料儲存:分散式

2.海量資料運算:分散式

已經有成熟的儲存框架:

1.HDFS--分散式檔案儲存系統(例如Word(直觀區別))

2.HBASE--分散式資料庫系統(例如表格((四要素:增刪改查)查詢也更加方便)但最終也存到檔案但是經過精心設計的)

3.KAFKA--分散式訊息快取系統(實時流式資料處理場景中應用廣泛,訊息頭,訊息體等一系列,但最終也存到檔案裡)

已經有成熟的運算框架:(要解決的核心問題就是幫助使用者處理邏輯在很多機器上並行)

1.MAPREDUCE--HADOOP中的運算框架

2.SPARK--離線批處理/實時流式計算(離線批處理例如水桶,一桶滿處理(看企業))

3.STORM--實時流式計算(例如水流出著處理著)

輔助工具:(解放我們的一些繁瑣工作)

1.HIVE--資料倉庫工具(可以接收sql,翻譯成MapReduce或者spark程式執行)

2.FLUME--資料採集

3.SQOOP--資料遷移(展示東西太亂要遷移到成熟的軟體上例如遷移到表上)

4.ELASTIC SEARCH--分散式搜尋引擎

等還有很多

大資料在現實生活中的具體應用:

1.資料處理的最典型的應用:公司產品運營情況分析

(例如網站會員為什麼增多,為什麼活躍,年齡段,會員續費等)

例如:友盟網站

2.電商推薦系統:購物行為資料,海量瀏覽行為,大量演算法模型運算進行商品推薦

例如淘寶

3.精準廣告推薦系統:投給想看的人看,例如衛生巾絕對不會投給男性看,進行海量的網際網路的使用者的各類資料,統計分析,進行使用者畫像,(得到你的各種標籤例如你是寶媽推薦奶粉,是愛狗的推薦狗糧)分析敏感資訊(例如發現壞的輿論源頭)

例如:ofo:分析使用者路線,使用者數量

大資料我認為的就先到這裡