大資料學習(一) --大資料概述
#大資料興起的背景 --第三次資訊化浪潮
##技術支撐
+硬碟儲存容量增加;
+CPU計算速度提高;
+網路頻寬不斷增加。
##資料產生方式的變革。
:感知式系統階段:物聯網的大規模普及。(物聯網底層是感知層:RFID,攝像頭,感測器)
:**物聯網的興起讓我們迎來了大資料時代。**
#什麼是大資料?
:大資料是一個仁者見仁, 智者見智的寬泛概念. 關於大資料的定義有很多, 我們不妨拿來幾個品讀品讀:
>亞馬遜大資料科學家John Rauser 認為大資料是任何超過一臺計算機處理能力的資料量. (Big data is any amount of data that' s too big to be handled by one computer)
>在《大資料: 下一個創新, 競爭和生產率的前沿》中, 麥肯錫對大資料定義為: 所謂大資料, 主要是指無法在一定時間內用傳統資料庫工具對其內容進行獲取, 儲存, 管理和分析的資料集.
>研究機構Gartner定義: 大資料是指需要新處理模式才能具有更強的決策力, 洞察發現力和流程優化能力的海量, 高增長率和多樣化的資訊資產.
>維基百科對大資料的定義則簡單明瞭: 大資料是指利用常用軟體工具捕獲、管理和處理資料所耗時間超過可容忍時間的資料集。 就是說大資料是一個體量特別大,資料類別特別大的資料集,並且這樣的資料集無法用傳統資料庫工具對其內容進行抓取、管理和處理。
>大資料大牛張富剛前輩說: 大資料是在短時間內快速地產生海量的, 多種多樣的, 有價值的資料.
:無論哪種定義, 都體現出了大資料的四大特性, 即4V--Volume(體量大),Velocity(速度快),Variety(多樣化),Value(價值). 當然, 也有人認為是5V特性, 第五個V是Veracity(真實性).
##大資料特性
+資料體量巨大. 資料量從TB級別躍升至PB
+處理速度快. 需對資料實時分析
+資料類別大. 由大量非結構化資料和少數結構化, 半結構化資料組成.
+價值密度低,商業價值高.
+資料真實性難辨識.
##大資料的幾個來源
+來自人類活動. 人們通過社會網路、網際網路、健康、金融、經濟、交通等活動過程所產生的各類資料,包括微博、病人醫療記錄、文字、圖形、視訊等資訊。
+來自計算機. 各類計算機資訊系統產生的資料,以檔案、資料庫、多媒體等形式存在,也包括審計、日誌等自動生成的資訊。
+來自物理世界. 各類數字裝置、科學實驗與觀察所採集的資料。 如攝像頭所不斷產生的數字訊號,醫療物聯網不斷產生的人的各項特徵值,氣象業務系統採集裝置所收集的海量資料等。
##大資料帶來思維方式的轉變:
+全樣而非抽樣. 可以儲存全部資料,而不用再去做抽樣分析;
+效率而非精度. 抽樣由於樣本選取的不同精度有發生變化,全樣分析誤差是多少就是多少,不會被放大;
+相關而非因果. 只關注相關性,而非因果關係。
##關鍵技術:
兩大核心:分散式儲存,分散式處理。
+分散式儲存:分散式資料庫BigTable,分散式檔案系統GFS;
+分散式處理:分散式並行處理技術。
###典型計算模式
- 批處理計算(MapReduce,Spark實時性好於MapReduce)
- 流計算——實時處理,實時響應,否則失去商業價值(S4,Storm,Flume)
- 圖計算——社交網路類資料(Google Pregel)
- 查詢分析計算(Google Dremel,Hive,Cassandra)