資料探勘步驟(流程)
阿新 • • 發佈:2019-01-08
流程說明:
暫且總結為五步:1、確立挖掘目的,2、資料準備,3、數學建模,4、模型評估,5、模型應用。
第一步:確立挖掘目的,
確立業務目標 --> 對目標做簡單評估,確立所需要的資料型別,人力資源及風險等, ----> 確立資料探勘的目標 ---->制定實施計劃
第二步:資料準備
1)、資料選擇:白貓黑貓能抓老鼠就是好貓,只要第一步確立了目標, 奔著這個目標選擇各種與目標相關的資料,公司內部資料,外部行業資料,網際網路資料等。可以爬去公開網站資料等。
2)、資料篩選:判斷資料是否有缺失,如果缺失確定填充缺失欄位或者刪除缺失欄位,資料型別一致性如日期時間,編碼格式。等
3)、資料轉換:對於結構化資料進行彙總匯出排序異常值處理等,非結構化資料進行分詞,情感分析,詞頻統計,去噪音等。
4)、資料優化:深入分析資料,主要清洗噪音資料。修改或刪除異類資料
第三步:數學建模
1)、技術選擇:根據自己技能選擇適合的模型
2)、構建模型:根據資料,構建模型,
3)、模型評估:根據測試如交叉驗證等測試結果,進行引數調優,並且評估各個模型,最終選擇最合適的模型。
第四步:結果評估
根據模型跑出的結果,結合第一步中資料探勘的目的。根據實際應用的情況,驗證模型是否適合解決實際問題。如果能夠解決,選擇最優的一套模型或者多套模型混合部署在業務應用系統。從而為實際問題服務,如果都沒能解決實際問題。返回重新調整模型或者重建。實踐是檢驗真理的唯一標準。
第五步:模型應用
上一步以說。如果有合適的模型。與業務系統對接。確立最終方案。Do it !!!