1. 程式人生 > >大資料學習(一) --大資料概述

大資料學習(一) --大資料概述

#大資料興起的背景 --第三次資訊化浪潮

##技術支撐

+硬碟儲存容量增加;

+CPU計算速度提高;

+網路頻寬不斷增加。

##資料產生方式的變革。

:感知式系統階段:物聯網的大規模普及。(物聯網底層是感知層:RFID,攝像頭,感測器)

:**物聯網的興起讓我們迎來了大資料時代。**

#什麼是大資料?

:大資料是一個仁者見仁, 智者見智的寬泛概念. 關於大資料的定義有很多, 我們不妨拿來幾個品讀品讀:

>亞馬遜大資料科學家John Rauser 認為大資料是任何超過一臺計算機處理能力的資料量. (Big data is any amount of data that' s too big to be handled by one computer)

>在《大資料: 下一個創新, 競爭和生產率的前沿》中, 麥肯錫對大資料定義為: 所謂大資料, 主要是指無法在一定時間內用傳統資料庫工具對其內容進行獲取, 儲存, 管理和分析的資料集. 

>研究機構Gartner定義: 大資料是指需要新處理模式才能具有更強的決策力, 洞察發現力和流程優化能力的海量, 高增長率和多樣化的資訊資產.

>維基百科對大資料的定義則簡單明瞭: 大資料是指利用常用軟體工具捕獲、管理和處理資料所耗時間超過可容忍時間的資料集。 就是說大資料是一個體量特別大,資料類別特別大的資料集,並且這樣的資料集無法用傳統資料庫工具對其內容進行抓取、管理和處理。

>大資料大牛張富剛前輩說: 大資料是在短時間內快速地產生海量的, 多種多樣的, 有價值的資料.

:無論哪種定義, 都體現出了大資料的四大特性, 即4V--Volume(體量大),Velocity(速度快),Variety(多樣化),Value(價值). 當然, 也有人認為是5V特性, 第五個V是Veracity(真實性).

##大資料特性

+資料體量巨大. 資料量從TB級別躍升至PB

+處理速度快. 需對資料實時分析

+資料類別大. 由大量非結構化資料和少數結構化, 半結構化資料組成.

+價值密度低,商業價值高.

+資料真實性難辨識.

##大資料的幾個來源

+來自人類活動. 人們通過社會網路、網際網路、健康、金融、經濟、交通等活動過程所產生的各類資料,包括微博、病人醫療記錄、文字、圖形、視訊等資訊。

+來自計算機. 各類計算機資訊系統產生的資料,以檔案、資料庫、多媒體等形式存在,也包括審計、日誌等自動生成的資訊。

+來自物理世界. 各類數字裝置、科學實驗與觀察所採集的資料。 如攝像頭所不斷產生的數字訊號,醫療物聯網不斷產生的人的各項特徵值,氣象業務系統採集裝置所收集的海量資料等。

##大資料帶來思維方式的轉變:

+全樣而非抽樣. 可以儲存全部資料,而不用再去做抽樣分析;

+效率而非精度. 抽樣由於樣本選取的不同精度有發生變化,全樣分析誤差是多少就是多少,不會被放大;

+相關而非因果. 只關注相關性,而非因果關係。

##關鍵技術:

         兩大核心:分散式儲存,分散式處理。

+分散式儲存:分散式資料庫BigTable,分散式檔案系統GFS;

+分散式處理:分散式並行處理技術。

###典型計算模式

  1. 批處理計算(MapReduce,Spark實時性好於MapReduce)
  2. 流計算——實時處理,實時響應,否則失去商業價值(S4,Storm,Flume)
  3. 圖計算——社交網路類資料(Google Pregel)
  4. 查詢分析計算(Google Dremel,Hive,Cassandra)