大資料學習(一) --大資料概述

阿新 • • 發佈：2018-12-14

#大資料興起的背景 --第三次資訊化浪潮

##技術支撐

+硬碟儲存容量增加；

+CPU計算速度提高；

+網路頻寬不斷增加。

##資料產生方式的變革。

:感知式系統階段：物聯網的大規模普及。(物聯網底層是感知層：RFID，攝像頭，感測器)

:**物聯網的興起讓我們迎來了大資料時代。**

#什麼是大資料?

:大資料是一個仁者見仁, 智者見智的寬泛概念. 關於大資料的定義有很多, 我們不妨拿來幾個品讀品讀:

>亞馬遜大資料科學家John Rauser 認為大資料是任何超過一臺計算機處理能力的資料量. (Big data is any amount of data that' s too big to be handled by one computer)

>在《大資料: 下一個創新, 競爭和生產率的前沿》中, 麥肯錫對大資料定義為: 所謂大資料, 主要是指無法在一定時間內用傳統資料庫工具對其內容進行獲取, 儲存, 管理和分析的資料集.

>研究機構Gartner定義: 大資料是指需要新處理模式才能具有更強的決策力, 洞察發現力和流程優化能力的海量, 高增長率和多樣化的資訊資產.

>維基百科對大資料的定義則簡單明瞭: 大資料是指利用常用軟體工具捕獲、管理和處理資料所耗時間超過可容忍時間的資料集。就是說大資料是一個體量特別大，資料類別特別大的資料集，並且這樣的資料集無法用傳統資料庫工具對其內容進行抓取、管理和處理。

>大資料大牛張富剛前輩說: 大資料是在短時間內快速地產生海量的, 多種多樣的, 有價值的資料.

:無論哪種定義, 都體現出了大資料的四大特性, 即4V--Volume(體量大)，Velocity(速度快)，Variety(多樣化)，Value(價值). 當然, 也有人認為是5V特性, 第五個V是Veracity(真實性).

##大資料特性

+資料體量巨大. 資料量從TB級別躍升至PB

+處理速度快. 需對資料實時分析

+資料類別大. 由大量非結構化資料和少數結構化, 半結構化資料組成.

+價值密度低，商業價值高.

+資料真實性難辨識.

##大資料的幾個來源

+來自人類活動. 人們通過社會網路、網際網路、健康、金融、經濟、交通等活動過程所產生的各類資料，包括微博、病人醫療記錄、文字、圖形、視訊等資訊。

+來自計算機. 各類計算機資訊系統產生的資料，以檔案、資料庫、多媒體等形式存在，也包括審計、日誌等自動生成的資訊。

+來自物理世界. 各類數字裝置、科學實驗與觀察所採集的資料。如攝像頭所不斷產生的數字訊號，醫療物聯網不斷產生的人的各項特徵值，氣象業務系統採集裝置所收集的海量資料等。

##大資料帶來思維方式的轉變:

+全樣而非抽樣. 可以儲存全部資料，而不用再去做抽樣分析；

+效率而非精度. 抽樣由於樣本選取的不同精度有發生變化，全樣分析誤差是多少就是多少，不會被放大；

+相關而非因果. 只關注相關性，而非因果關係。

##關鍵技術：

兩大核心：分散式儲存，分散式處理。

+分散式儲存：分散式資料庫BigTable，分散式檔案系統GFS；

+分散式處理：分散式並行處理技術。

###典型計算模式

批處理計算（MapReduce，Spark實時性好於MapReduce）
流計算——實時處理，實時響應，否則失去商業價值（S4，Storm，Flume）
圖計算——社交網路類資料（Google Pregel）
查詢分析計算（Google Dremel，Hive，Cassandra）

大資料學習(一) --大資料概述

大資料學習(一) --大資料概述

大資料學習之路【跟著大神學習一波】

【大資料學習】大資料學習基礎知識總綱

【大資料學習】大資料學習的基礎知識

大資料學習——常用的資料分析法和模型

大資料系列 (一)、資料分片與路由(Hash partition and Routing)

大數據學習之路（跟著大神學習一波）

robot framework學習一——測試資料語法

機器學習一：資料預處理

前端學習一JS資料型別

資料結構: 一、資料結構概述

java後臺封裝json資料學習(一)

好程式設計師大資料學習路線之mapreduce概述

資料結構一（資料結構與演算法基本含義）

一、Python變數和資料型別(一) 基本資料型別

JavaScript 時間獲取以及獲取前一天資料後一天資料

大資料學習-linux章--- (一) linux概述

如何學習大資料？首先你需要一條這樣的大資料學習路線

大資料學習初級入門教程（一） —— Hadoop 2.x 的安裝、啟動和測試

大資料學習記錄，一

大資料學習(一) --大資料概述

相關推薦