資料探索簡介——質量分析、特徵分析

阿新 • • 發佈：2019-01-05

此處參考《python資料分析和挖掘實戰》這本書

資料質量分析：

主要是對異常值的分析：

1、3σ原則：如果資料符合正態分佈，那麼資料異常定義在一組測定值與平均值的偏差超過3倍標準差的值。在正態分佈的假設下，距離平均值3σ之外的值出現的概率為P(|x-μ|>3σ)≤0.003，屬於極個別的小概率事件。但面對不服從正態分佈的資料，應該怎麼辦呢？

2、箱型圖法：該方法具有很大的魯棒性：多達25%的資料可以離得非常遠而不影響四分位數。異常值被定義為>Q_u+1.5IQR或者<Q_L-1.5IQR。首先將資料從小到大排序，設定位於25%的值Q_L為下四分位數(1/4分位數)，設定位於75%的值Q_u為上四分位數(3/4分位數)，其中IQR稱為四分位間距數，等於Q_u-Q_L，包括了觀察值的一半。

在python中，data.describe()方法可獲得箱型圖法的大部分資料。直接給出樣本資料的一些基本統計量，包括均值、標準差、最大值、最小值、分位數等，如下輸出。

其他資料質量分析還包括對缺失值分析、一致性分析。

資料特徵分析：

分佈分析：極差分組、頻率分佈直方圖(餅狀圖)

統計量分析：平均水平的指標(個體集中趨勢):均值、中位數；變異程度(個體離開平均水平度量):標準差(方差)、四分位間距

週期性分析：週期性規律

貢獻度分析：二八原則—20%的人決定80%的價值

相關性分析：散點圖、計算相關係數

偷點懶直接截圖了。

相對於統計函式則簡單得多，pandas內部含有計算資料樣本的Spearman(pearson)相關係數矩陣的函式corr()，D.corr(method=’pearson’),其中樣本D可為DataFrame，返回相關係數矩陣，method引數為計算方法，支援pearson(default)、kendall、spearman。

還包括D.sum()按列求和、D.std()、D.mean()、D.var()方差、D.cov()其中D均可為DataFrame或Series

視覺化函式：

主要是matplotlib和pandas函式。

函式plot：需要注意plt.plot(x,y,S)這是matplotlib裡面的，D.plot(kind=’box’)這是pandas裡面的，kind還可以為line(線)、bar(條形)、barh、hist(直方圖)、box(箱線圖)、kde(密度圖)、area、pie(餅圖)。

函式pie：plt.pie(size) 其中size為所佔比例

函式hist：plt.hist(x,y) x為待繪製直方圖的一維陣列，y可以為整數表示均勻分為n組

其他對於pandas呼叫均採用D.xxx()，D可為DataFrame或者Series。

資料探索簡介——質量分析、特徵分析

資料探索簡介——質量分析、特徵分析

26、python資料表透視分析、交叉分析、實現透視表功能

事物分析、靜態分析與UML

【ArcGIS|空間分析】利用DEM提取山脊、山谷線（水文分析、表面分析）

Scikit-Learn 與 TensorFlow 機器學習實用指南學習筆記 4 —— 資料探索與視覺化、發現規律

機器學習（五）降維技術---主成分分析、因子分析

作業系統效能計數器、CPU分析、磁碟I/O分析、記憶體分析

一個完整的語法分析、詞法分析例子——Universal Pasrser

經典內部排序演算法學習總結(演算法思想、視覺化、Java程式碼實現、改進、複雜度分析、穩定性分析)

編譯原理之詞法分析、語法分析、語義分析

資料探索（2）資料特徵分析

資料探索（1）資料質量分析

特徵層次分析、視覺特徵語義探索（微調+預訓練）

上網行為、應用層協議資料特徵與流量特徵分析（招商合作）

（一）Shiro筆記——簡介、架構分析

Beginning Data Exploration and Analysis with Apache Spark 使用Apache Spark開始資料探索和分析中文字幕

資料分析、資料探勘、演算法工程師、大資料分析師的區別是什麼？爬招聘網站用資料來全方位分析

python轉型資料分析、機器學習、人工智慧學習路線

大資料入門環境搭建整理、大資料入門系列教程合集、大資料生態圈技術整理彙總、大資料常見錯誤合集、大資料的離線和實時資料處理流程分析

ML - 貸款使用者逾期情況分析2 - 特徵工程1（資料預處理）

資料探索簡介——質量分析、特徵分析

相關推薦