Python資料探勘的——資料探索詳解
阿新 • • 發佈:2018-12-09
資料質量分析:
資料質量的分析是資料分析資料中有效資料準備過程中的一個重要環節。是資料預處理的前提重要的環節。也是為資料探勘的分析的有效性和準確性的基礎。
資料質量的分析主要是原始資料中是否存在骯資料。髒資料包括是:缺失值 不一致的資料 重複資料或者是特殊的符號
資料特徵分析:
只要是對資料進行質量分析,接下來可以通過繪製圖表,計算某些等手段進行資料的特徵的分析。
1、分佈分析:具體的步驟:1求極差、2決定組數與組數 、3決定分點 、4列出頻率分佈性、5繪製頻率分佈圖
遵循的原則:1各組之間必須排斥、2各組的資料必須所有的資料都應該包含在內。各組資料的寬度組好相等。
2、定性的對數進行分析:
對於定性的分析,常常根據變數的分類來進行分組,可以採用餅狀圖和條形的來進行描述定性變數的分佈。
對比分析:
1絕對數比較
2相對數比較(結構相對數、比例相對數、比較相對數、強度相對數、計劃完成程度相對數、動態相對數、)
統計量的分析:
1均值的計算 2中位數的計算3 眾數的計算 4極差的計算 5 標準差的計算 6 變異係數的計算 7四分數的計算
週期性分析:
週期性分析是探索某個變數的是否隨著時間呈現週期的變化的趨勢時間尺度相對較長的週期性有年度的週期性的趨勢,甚至是天數,小時的週期性的趨勢。
貢獻度分析:
又稱為20/80定律 同樣的投入放在不同的地方會產生不同的效益。
相關性分析:
繪製散點圖、繪製散點矩陣圖片 相關係數的計算
python主要探索的函式:
拓展統計函式: