1. 程式人生 > >資料探勘標準流程CRISP-DM

資料探勘標準流程CRISP-DM

1、首先說一下KDD模型的概念

  知識發現(KDD:Knowledge Discovery in Database)是從資料集中識別出有效的、新穎的、潛在有用的,以及最終可理解的模式的非平凡過程。知識發現將資訊變為知識,從資料礦山中找到蘊藏的知識金塊,將為知識創新和知識經濟的發展作出貢獻。

   這裡不得不提一下資料探勘的概念,資料探勘(英語:Data mining),又譯為資料探勘、資料採礦。它是KDD中的一個步驟。資料探勘一般是指從大量的資料中通過演算法搜尋隱藏於其中資訊的過程。資料探勘通常與電腦科學有關,並通過統計、線上分析處理、情報檢索、機器學習、專家系統(依靠過去的經驗法則)和模式識別等諸多方法來實現上述目標。   資料探勘利用了來自如下一些領域的思想:(1) 來自統計學的抽樣、估計和假設檢驗,(2)人工智慧、模式識別和機器學習的搜尋演算法、建模技術和學習理論。資料探勘也迅速地接納了來自其他領域的思想,這些領域包括最優化、進化計算、資訊理論、訊號處理、視覺化和資訊檢索。一些其他領域也起到重要的支撐作用。特別地,需要資料庫系統提供有效的儲存、索引和查詢處理支援。源於高效能(並行)計算的技術在處理海量資料集方面常常是重要的。分散式技術也能幫助處理海量資料,並且當資料不能集中到一起處理時更是至關重要。

  2、跨行業資料探勘標準流程

  CRISP-DM (cross-industry standard process for data mining), 即為"跨行業資料探勘標準流程",CRISP-DM 模型是KDD模型的一種,最近幾年在各種KDD過程模型中佔據領先位置,它是由戴姆勒-克萊斯勒、SPSS和NCR的分析人員共同開發的。CRISP提供了一種開放的、可自由使用的資料探勘標準過程,使資料探勘適合於商業或研究單位的問題求解策略。

如圖流程圖

CRISP-DM為一個KDD工程或者說是一個數據挖掘專案提供了一個完整的過程描述。它把這個過程定義為六個標準階段,分別是商業理解、資料理解、資料準備、建立模型、模型評估和模型釋出,以下分別加以簡介:

(一)商業理解階段

    商業理解也可以說是業務/研究理解的並確定分析目標的一個階段。

    首先明確目標:明確要達到的業務目標,並將其轉化為資料探勘主題。

    其次轉換資料探勘定義:要從商業角度對業務部門的需求進行理解,並把業務需求的理解轉化為資料探勘的定義,擬定達成業務目標的初步方案。具體包括商業背景分析、商業成功標準的確定、形勢評估、獲得企業資源清單、獲得企業的要求和設想、評估成本和收益、評估風險和意外、初步理解行業術語。

    最後確定目標與策略:確定資料探勘的目標和制定資料探勘計劃。

  • 確定商業目標:明確商業背景、商業目標、可衡量的成功標準
  • 評估環境:明確企業資源、需求、約束,風險,溝通,成本代價分析
  • 確定資料探勘目標:明確目標以及可衡量的成功標準
  • 制定專案計劃

(二)資料理解階段

     首先收集資料:找出可能的影響主題的因素,確定這些影響因素的資料載體、資料體現形式和資料儲存位置。

     其次熟悉資料,具體包括以下工作內容:檢測資料質量,對資料進行初步理解,簡單描述資料,探測資料意義,

     最後提前資料:分析資料中潛藏的資訊和知識提出擬用資料加以驗證的假設。

  • 收集原始資料:撰寫資料收集報告(充分理解資料來源,注意資料集有效時間)
  • 描述資料:資料描述報告
  • 探索資料:資料探索報告
  • 檢驗資料質量:資料質量報告

(三)資料準備階段

     資料準備是將前面找到的資料進行變換、組合,建立資料探勘工具軟體要求格式和內容的寬表。資料準備階段要從原始資料中形成作為建模分析物件的最終資料集。資料準備階段的具體工作主要包括資料製表、記錄處理、變數選擇、資料轉換、資料格式化和資料清理等,各項工作並不需要預先規定好執行順序,而且資料準備工作還有可能多次執行。

  • 資料準備:資料集和資料集描述
  • 選擇資料:包含/排除資料的準則
  • 清洗資料:資料清洗報告,一定要記錄資料清洗方法
  • 構造資料:派生屬性,資料轉化、離散、產生新紀錄化等等
  • 整合資料:合併資料,匹配資料
  • 格式化資料:去量綱等

(四)建立模型階段

    建立模型是應用軟體工具,選擇合適的建模方法,處理準備好的資料表,找出資料中隱藏的規律。在建立模型階段,將選擇和使用各種建模方法,並將模型引數進行優化。對同樣的業務問題和資料準備,可能有多種資料探勘技術方法可供選用,此時可優選提升度高、置信度高、簡單而易於總結業務政策和建議的資料探勘技術方法。在建模過程中,還可能會發現一些潛在的資料問題,要求回到資料準備階段。建立模型階段的具體工作包括:選擇合適的建模技術、進行檢驗設計、建造模型。

  • 選擇建模技術:建模演算法,模型建立
  • 生成測試設計:撰寫測試設計文件
  • 生成模型:使用的引數、模型以及模型描述
  • 模型評價: 評估模型並完善引數

(五)模型評估階段

    模型評估是要從業務角度和統計角度進行模型結論的評估。要求檢查建模的整個過程,以確保模型沒有重大錯誤,並檢查是否遺漏重要的業務問題。當模型評估階段結束時,應對資料探勘結果的釋出計劃達成一致。

  • 結果評價:依據商業成功標準評價模型結果、稽核模型
  • 過程在檢驗:稽核模型建立過程
  • 後續階段檢驗:最終決定

(六)模型釋出階段

    模型釋出又稱為模型部署,建立模型本身並不是資料探勘的目標,雖然模型使資料背後隱藏的資訊和知識顯現出來,但資料探勘的根本目標是將資訊和知識以某種方式組織和呈現出來,並用來改善運營和提高效率。當然,在實際的資料探勘工作中,根據不同的企業業務需求,模型釋出的具體工作可能簡單到提交資料探勘報告,也可能複雜到將模型整合到企業的核心運營系統中去。

  • 樹立執行計劃:部署計劃
  • 樹立調控/維持計劃:計劃書
  • 編寫最終報告書:得到最終報告或陳述
  • 專案再檢驗:經驗文件

總結

Crisp-DM標準流程:

商業理解(行業)->資料理解(關係)->資料準備(質量)->建立模型(演算法)->模型評估(標準)->釋出模型

合理的翻譯一個挖掘主題:業務問題->資料問題->資料模型->解決方案  (溝通能力+表達能力+理解能力+建模能力)

參考文章: