資料探勘一般過程

阿新 • • 發佈：2019-01-19

1.資料集選取

2.資料預處理

(1)資料清理

(2)資料整合

(3)資料歸約

(4)資料變換和資料離散化

3.資料分析演算法

4.分析總結改進

這學期提前選課學習了Data Mining，最近提交了論文已經徹底結了。想來想去還是寫點東西記一下，假如以後能用上呢？僅供參考哈

參考書:《資料探勘概念與技術》 Jiawei Han 等著

首先一些基本概念還是要了解一下的，資料探勘是從大量資料中挖掘出有趣模式和知識的過程。資料來源一般是資料庫、資料倉庫、Web等，得到的資料稱為資料集(dataset)。其中資料倉庫是data mining獨有內容，是從多個數據源收集的資訊儲存庫。按照William H.Inmon的說法，“資料倉庫是一個面向主題的、整合的、時變的、非易失的資料集合，支援管理者的決策過程”。對比資料庫的概念，“長期儲存在計算機內、有組織的、可共享的大量資料的集合”(《資料庫系統概論》（第四版）王珊等),可以分為兩類，聯機資料處理(Online Transaction Processing，OLTP)系統和聯機分析處理(Online Analytical Processing，OLAP)系統。資料庫屬於前一個，資料倉庫屬於後一個，對比如下:

圖1 OLTP和OLAP對比圖

然後是重點：資料探勘的一般過程。

1.資料集選取

一般資料集是已經存在的或者至少知道如何獲得的(訪問某個資料庫，網上過濾抓取需要的資料，問卷調查手動收集等)。資料集的選取對資料探勘模式是否有趣起決定作用。一般的資料探勘模式有頻繁模式，用於預測分析的分類和迴歸模式，聚類分析模式等，代表著資料探勘的某種目的。最開始做實驗的時候並不知道自己想要做什麼(一般都是現有資料集或者想法，再有資料探勘)，於是檢視一些常見的資料集網站(下附)，尋找自己感興趣的資料集，畢竟興趣是最好的老師，興趣有了，資料探勘才能開心地做下去。

資料探勘資料集下載蒐集整理版 http://blog.sina.com.cn/s/blog_5c9288aa01014a56.html

2.資料預處理

選取了資料集之後，就開始對資料進行預處理使得資料能夠為我們所用了。資料預處理提高資料質量：準確性、完整性和一致性，包括資料清理、資料整合、資料規約和資料變換方法。

圖2資料預處理方法

(1)資料清理

忽略元祖

人工填寫缺失值

使用屬性的中心度量填充

給定同一類所有樣本的屬性均值或中位數填充

最可能的值填充

(2)資料整合

實體識別

冗餘和相關分析(卡方檢驗，相關係數，協方差等，用spss比較方便)

(3)資料歸約

維規約(小波變換和主成分分析，最常用)

數量規約(較小的資料替代原始資料)

資料壓縮(有損無損兩種，尤其對於影象視訊等多媒體常用)

(4)資料變換和資料離散化

資料變換:光滑，屬性構造，聚集，規範化，離散化和概念分層。

圖3 資料規範化常見方法

圖4 資料離散化

Eg：3-4-5規則，根據最高有效位個數分：

分為3類:最高有效位個數為 3 6 7 9

4 2 4 8

5 1 5

一般步驟：取min5%,max95%;根據3-4-5規則分段；根據兩端調整分段

3.資料分析演算法

這個裡面的內容就多而且複雜了，僅提出一些常見的供參考吧:

最經典的莫過於頻繁模式挖掘了，物件為事物出現的次數。如著名的啤酒尿布。其中最典型的演算法為Apriori演算法，包括連線和剪枝。其中有置信度，支援度，頻繁項集最小置信度閾值等重要概念，到相關分析中還有提升度，全置信度，Kulczy和餘弦等判斷標準和零不變度量考慮。個人覺得Uber就是看到了大量的零事物，從而開拓私家車市場並取得巨大成功的典型案例，也可以說換角度思考吧。

資料探勘不僅僅用於挖掘頻繁模式之間的聯絡，還常常用來分類和聚類。

分類的一般過程為用分類演算法分析訓練資料，然後用檢驗資料評估分類規則的準確率。常用的分類準則有決策樹歸納、屬性選擇度量、樹剪枝等，具體的常見演算法有樸素貝葉斯(前提屬性之間相互獨立)，貝葉斯信念網路，k-最近鄰分類，遺傳演算法，神經網路，模糊集方法等。由此機器學習智慧演算法的強大可見一斑。

聚類由於是非指導學習，就相對麻煩些了。聚類的常見劃分方法有k-均值和k-中心點，都是基於抽象距離的(實際度量為密度，網格等)。還有比較高階版本的，比如說基於概率的。聚類中有很多重要的概念，如劃分準則，簇的離散型，相似性度量，聚類空間。個人覺得聚類其實就是自己按照一定的理解嘗試去定製標準進行分類，然後檢驗自己的標準(尤其是離群點)。

演算法弄完了，別忘了檢驗哦。

4.分析總結改進

世界上沒有任何東西生而完美，因而我們常常有很奇特的體驗：過了一段時間後看自己以前做的事情，覺得自己以前怎麼會做得那麼二！

在資料探勘中分析是很重要的，因此自己有任何的想法，即便自己當時覺得不好，也應該記下來，最後分析的時候再看看，假如又覺得有用呢。分析的物件主要是模型的優缺點(或者叫模型的評估)，客觀公正的評判自己的作品(能有高手幫忙最好啦)能清醒自己的認知。改進就是從分析當中來。一般而言，做這種帶一定學術性的東西，確定好自己的基本想法和實踐過程後去大型資料庫(如中國知網)搜一搜，看看別人是如何處理相關事情的，對比一下。不管怎麼說，高屋建瓴總比平地蓋樓容易吧。

總結是對自己的肯定，別的不說，寫完總結後看看前面自己做的事情，肯定還是有不小的自豪感的！總結的過程就是思考的過程，讓自己後面的每一個作品都比現在的要好！

以我目前所學的粗淺知識，也就能寫這麼點了。。。

資料探勘一般過程

1.資料集選取

2.資料預處理

(1)資料清理

(2)資料整合

(3)資料歸約

(4)資料變換和資料離散化

3.資料分析演算法

4.分析總結改進

資料探勘一般過程

第六章資料探勘建模過程

資料探勘一般流程（資料清洗，特徵提取，建模，調參）

一個AI產品（資料探勘）的產生過程

Python資料探勘過程

資料探勘的一般流程

【機器學習】資料探勘演算法——關聯規則（二），挖掘過程，Aprioir演算法

資料探勘過程模型研究

python資料探勘課程十三.WordCloud詞雲配置過程及詞頻分析

資料探勘過程中的問題集合

資料探勘領域中的分類和迴歸區別是什麼？

大資料就業前景怎麼樣？hadoop工程師、資料探勘、資料分析師薪資多少？

利用Python學習資料探勘【0】

利用Python學習資料探勘【2】

利用 Python學習資料探勘【1】

《資料探勘核心技術揭祕》筆記

python 資料分析資料探勘人工智慧教程

【Mark Schmidt課件】機器學習與資料探勘——特徵選擇

【Mark Schmidt課件】機器學習與資料探勘——非線性迴歸

【Mark Schmidt課件】機器學習與資料探勘——數值優化與梯度下降

資料探勘一般過程

1.資料集選取

2.資料預處理

(1)資料清理

(2)資料整合

(3)資料歸約

(4)資料變換和資料離散化

3.資料分析演算法

4.分析總結改進

相關推薦