1. 程式人生 > >Python資料探勘過程

Python資料探勘過程

資料探勘的建模過程

  1. 定義挖掘目標
    明確系統完成後想要達成什麼樣的效果。
    我們需要分析應用領域,瞭解相關領域的情況,熟悉背景知識,弄清使用者需求。
  2. 資料取樣
    從業務系統中抽取一個與挖掘目標相關的樣本資料子集。
    抽取資料的標準,一是相關性,二是可靠性,三是有效性。
    衡量取樣資料質量的標準如下:
    1)資料完整無缺,各類指標項齊全。
    2)資料準確無誤,反映的都是正常(而不是異常)狀態下的水平。
  3. 資料探索
    檢驗樣本是否達到我們原來設想的要求,對資料進行探索,稽核和必要的加工處理。
    資料探索和預處理的目的是為了保證樣本資料的質量,從而為保證模型質量打下基礎。
    資料探索主要包括:異常值分析、缺失值分析,相關分析和週期性分析
  4. 資料預處理
    當資料維度過大,如何進行將未處理、缺失值處理等都是資料預處理要解決的問題。
    由於取樣資料中常常包含許多含有噪聲、不完整,甚至不一致的資料,對資料探勘所涉及的資料物件必須進行預處理。
    資料預處理主要包括:資料篩選、資料變數轉換、缺失值處理、壞資料處理、資料標準化、主成分分析、屬性選擇、資料規約等。
  5. 挖掘建模
  6. 這是資料探勘工作的核心環節。
    考慮本次建模屬於資料探勘應用中的那類問題(分類,聚類,關聯規則,時許模式或者智慧推薦),選用哪種演算法進行模型構建。
  7. 模型評價
  8. 從這些模型中自動找出一個最好的模型,還要根據業務對模型進行解釋和應用。

資料探勘建模工具
Python
Python是一種面向物件、解釋型計算機程式設計語言,它擁有高效的高階資料結構,並且能夠用簡單而又高效的方式進行面向物件程式設計。
在資料探勘領域,它提供了眾多擴充套件庫。例如:
科學計算擴充套件庫NumPy、Scipy和matplotlib,它們分別為python提供了快速陣列處理、數值運算以及繪圖功能。
機器學習相關的Sklearn類庫,它提供了完善的機器學習工具箱,包括資料預處理、分類、迴歸、聚類、預測、模型分析等。
總的來講,python是一門比較適合資料探勘的語言。