1. 程式人生 > >第一章·導論

第一章·導論

資料探勘主要有兩大類:

  • 預測任務:根據其他屬性的值,預測特定屬性的值
  • 描述任務:匯出概括資料中潛在聯絡的模式(相關,趨勢,聚類,軌跡和異常)

4種主要的資料探勘任務:

  • 預測建模:
  1. 分類:用於預測離散的目標變數(如預測web與使用者是否會在網上買書,預測花型別)。
  2. 迴歸:用於預測連續的目標變數(如預測未來股票價格)。
  • 關聯分析:用來發現描述資料中強關聯特徵的模式。(如找事物間聯絡,通過購物籃資料發現買尿布的顧客多半會買牛奶)。
  • 聚類分析:發現緊密相關的觀測值組群,每個族群中的每個觀測值都儘可能相同(如對顧客進行分類
  • 異常檢測:識別特徵顯著不同於其他資料的觀測值。這樣的觀測值被稱為異常值或者離群點,目標是發現真正異常點,而避免將正確物件標註為異常點(如檢驗欺詐,尋找疾病的不尋常模式)

         例:信用卡欺詐檢驗:比如合法交易需要一系列步驟,而非法交易步驟相對簡單,可以通過步驟比較,如果和合法交易步驟差距很大就有可能是非法交易。