1. 程式人生 > >大資料分析與挖掘筆記(1)

大資料分析與挖掘筆記(1)

第一章 緒論
大資料特點:4V
容量Volume 多樣性Variety 速度Velocity 價值Value

資料分析時用適當的統計分析方法,對收集來的大量資料進行分析,提取有用資訊和形成結論並對資料加以詳細研究和概括總結的過程。
分為三個層次:
描述分析,預測分析,規範分析
大資料分析時指對規模巨大的資料進行分析,是從大資料到資訊、再到知識的關鍵步驟
資料探勘是指從資料集合中提取人們感興趣的知識,這些知識是隱含的,事先未知的,潛在有用的資訊。
提取出來的知識一般可表示為概念、規則、規律、模式等形式。

大資料分析和挖掘的步驟:
1 任務目標的確定
2 目標資料集的提取
3 資料預處理
4 建立適當的資料分析和挖掘模型
5 模型的解釋和評估
6 知識的應用

資料探勘的主要功能
1 對資料的統計分析與特徵描述
2 關聯規則挖掘和相關性分析
3 分類與迴歸
4 聚類分析
5 異常檢測或離群點分析

大資料分析與挖掘工具
1 Sklearn
對於一些常用的機器學習方法進行封裝,只需要簡單的呼叫Sklearn裡的模組就可以實現大多數機器學習任務。
機器學習任務包括:
分類 迴歸 聚類 資料降維 資料預處理
常用的分類器:
KNN 貝葉斯 線性迴歸 邏輯迴歸 決策樹 隨機森林 GBDT

2 Spark ML
通用記憶體平行計算框架,常用於構建大型的、低延遲的資料分析應用程式。
目前spark已經擁有了實時計算、批處理、機器學習演算法庫、SQL、流計算等模組。
MLlib由一些通用的學習演算法和工具組成,包括分類、迴歸、聚類、降維等,同時還包括底層的優化原語和高層的管道API。主要包括以下具體內容:
(1)演算法:常用機器學習演算法
(2)特徵處理工具:特徵提取、轉化、降維和屬性選擇工具。
(3)管道:用於構建、評估和調整機器學習流程的工具。
(4)永續性:儲存和載入演算法、模型和管道。
(5)實用工具:線性代數、統計、資料處理等。

第二章 資料特徵分析與預處理
資料集型別:
1 結構化資料:所有資料都具有相同的模式
2 半結構化資料:常見的有XML文件和JSON資料。
3 非結構化資料

資料屬性的型別
(1)標稱屬性:又稱為分類屬性,統計學中稱為定類變數。
當標稱屬性的類別或者狀態數為兩個的時候,稱為二元屬性,二元屬性又稱為布林屬性。
對於二元屬性,又分為對稱二元屬性和非對稱二元屬性。
(2)序數屬性:不僅包含屬性的全部特徵,還能反應物件之間的等級和順序。統計學中也稱為定序變數。
(3)數值屬性:可以度量的,通常用實數表示。
分為區間標度屬性和比率標度屬性。
區間標度屬性有:日曆,日期,智商等。相等的數字距離代表所測量的變數相等的數量差值

,在統計學上也稱為定量距離
比例標度屬性可以進行加減乘除運算,統計學中稱為定比變數,應用最廣泛

資料集中趨勢的度量:
資料集中趨勢:一組資料向某一中心值靠攏的程度,他反應一組資料中心點的位置所在。
度量:
算數平均數 中位數(位置平均數) 眾數 k位百分數 四分位數

資料離中趨勢的度量:
極差:最大值與最小值之差
四分位數極差(IQR):第三個四分位數減去第一個四分位數
平均絕對離差:各個數值與平均值的距離綜合後取平均