資料探勘之七種常用的方法

阿新 • • 發佈：2019-01-11

資料探勘是指從資料庫的大量資料中揭示出隱含的、先前未知的並有潛在價值的資訊的非平凡過程。

利用資料探勘進行資料分析常用的方法主要有分類、迴歸分析、聚類、關聯規則、特徵、變化和偏差分析、Web頁挖掘等，它們分別從不同的角度對資料進行挖掘。

分類

分類是找出資料庫中一組資料物件的共同特點並按照分類模式將其劃分為不同的類，其目的是通過分類模型，將資料庫中的資料項對映到某個給定的類別，用於預測資料物件的離散類別。

分類技術在很多領域都有應用，它可以應用到客戶的分類、客戶的屬性和特徵分析、客戶滿意度分析、客戶的購買趨勢預測等。

當前的市場營銷中很重要的一個特點是強調客戶細分。客戶類別分析的功能也在於此，採用資料探勘中的分類技術，可以將客戶分成不同的類別。比如呼叫中心設計時可以分為：呼叫頻繁的客戶、偶然大量呼叫的客戶、穩定呼叫的客戶、其他，幫助呼叫中心尋找出這些不同種類客戶之間的特徵，這樣的分類模型可以讓使用者瞭解不同行為類別客戶的分佈特徵。

其他分類應用如文獻檢索和搜尋引擎中的自動文字分類技術；安全領域有基於分類技術的入侵檢測等等。

而主要分類方法有決策樹、KNN法(K-Nearest Neighbor)、SVM法、VSM法、Bayes法、神經網路等。

迴歸分析

迴歸分析，一個統計預測模型，用以描述和評估應變數與一個或多個自變數之間的關係；反映的是事務資料庫中屬性值在時間上的特徵，產生一個將資料項對映到一個實值預測變數的函式，發現變數或屬性間的依賴關係。

其主要研究問題包括資料序列的趨勢特徵、資料序列的預測以及資料間的相關關係等。

迴歸分析方法被廣泛地用於解釋市場佔有率、銷售額、品牌偏好及市場營銷效果。它可以應用到市場營銷的各個方面，如客戶尋求、保持和預防客戶流失活動、產品生命週期分析、銷售趨勢預測及有針對性的促銷活動等。

主要表現

(1) 判別自變數是否能解釋因變數的顯著變化----關係是否存在。

(2) 判別自變數能夠在多大程度上解釋因變數----關係的強度。

(3) 判別關係的結構或形式----反映因變數和自變數之間相關的數學表示式。

(4) 預測自變數的值。

(5) 當評價一個特殊變數或一組變數對因變數的貢獻時，對其自變數進行控制。

聚類

聚類，顧名思義就是按照相似性和差異性，把一組物件劃分成若干類，並且每個類裡面物件之間的相似度較高，不同類裡面物件之間相似度較低或差異明顯。與分類不同的是聚類不依靠給定的類別對物件進行劃分。

分析演算法分類

（1）劃分方法

（2）層次的方法

（3）基於密度的方法

（4）基於網格的方法

（5）基於模型的方法

它可以應用到客戶群體的分類、客戶背景分析、客戶購買趨勢預測、市場的細分等。如誰經常光顧商店，誰買什麼東西，買多少？按忠誠卡記錄的光臨次數、光臨時間、年齡、職業等等；還有銀行信用卡的黃金客戶，按儲蓄額、刷卡消費金額和誠信度等。

關聯規則

關聯規則是描述資料庫中資料項之間所存在的關係的規則，可以從一件事情的發生，來推測另外一件事情的發生，即隱藏在資料間的關聯或相互關係，從而更好地瞭解和掌握事物的發展規律等等。

關聯規則資料探勘中最經典的案例就是沃爾瑪的啤酒和尿布的故事。在美國，一些年輕的父親下班後經常要到超市去買嬰兒尿布，而他們中有30%～40%的人同時也為自己買一些啤酒。於是沃爾瑪將啤酒與尿布一起銷售，**提高了銷售額。

關聯規則的實際應用包括：交叉銷售、郵購目錄的設計、商品擺放、流失客戶分析、基於購買模式進行客戶區隔等等……

在客戶關係管理中，通過對企業的客戶資料庫裡的大量資料進行挖掘，可以從大量的記錄中發現有趣的關聯關係，找出影響市場營銷效果的關鍵因素，為產品定位、定價與定製客戶群，客戶尋求、細分與保持，市場營銷與推銷，營銷風險評估和詐騙預測等決策支援提供參考依據。

特徵

特徵分析是從資料庫中的一組資料中提取出關於這些資料的特徵式，這些特徵式表達了該資料集的總體特徵。特徵選擇的目的在於從海量資料中提取出有用資訊，從而提高資料的使用效率。

其中，特徵有效性的選擇評價有概率論、數理統計、資訊理論、IR領域的度量、學**相關的度量等。

如營銷人員通過對客戶流失因素的特徵提取，可以得到導致客戶流失的一系列原因和主要特徵，利用這些特徵可以有效地預防客戶的流失。

變化和偏差分析

偏差是資料集中的小比例物件。通常，偏差物件被稱為離群點、例外、野點等。偏差分析是一個有趣的資料探勘任務，其目的是發現與大部分其他物件不同的物件。如分類中的反常例項，模式的例外，觀察結果對期望的偏差等。

在企業危機管理及其預警中，管理者更感興趣的是那些意外規則。意外規則的挖掘可以應用到各種異常資訊的發現、分析、識別、評價和預警等方面。

而其成因有資料來源於不同的類、自然變異、資料測量或收集誤差等。

Web頁挖掘

通過對Web的挖掘，可以利用Web 的海量資料進行分析，收集政治、經濟、政策、科技、金融、各種市場、競爭對手、供求資訊、客戶等有關的資訊，集中精力分析和處理那些對企業有重大或潛在重大影響的外部環境資訊和內部經營資訊，並根據分析結果找出企業管理過程中出現的各種問題和可能引起危機的先兆，對這些資訊進行分析和處理，以便識別、分析、評價和管理危機。

Web資料探勘的研究物件是以半結構化和無結構文件為中心的Web，這些資料沒有統一的模式，資料的內容和表示互相交織，資料內容基本上沒有語義資訊進行描述，僅僅依靠HTML語法對資料進行結構上的描述。

可完成任務

（1）網路流量分配情況、隨時間變化情況分析。

（2）網站廣告點選率、投資收益比分析。

（3）使用者從哪裡進入網站、跳出網站，進入感興趣的頁的方式等出入口分析。

（4）使用者來源分析。

（5）訪問站點的使用者的瀏覽器和平臺分析。

（6）發現經常被使用者一起訪問的頁面集合，作為優化站點的參照。

（7）聚類行為模式相似的使用者，形成智慧推薦模式；聚類同一群使用者訪問的頁面，幫助發現站點設計的不合理之處。

（8）預測使用者可能訪問的頁面，行為趨勢分析和使用者分類等。

資料探勘是一種決策支援過程，它通過高度自動化地分析企業的資料，做出歸納性的推理，從中挖掘出潛在的模式，幫助決策者調整市場策略，減少風險，做出正確的決策，這對於一個企業的發展十分重要。

資料探勘之七種常用的方法

資料探勘之七種常用的方法

HAWQ + MADlib 玩轉資料探勘之（七）——關聯規則方法之Apriori演算法

零基礎入門大資料探勘之spark中的幾種map

零基礎入門大資料探勘之reduce方法

資料探勘之挖掘頻繁模式的基本概念及方法

資料探勘之售房資料分析1

資料探勘之十大經典演算法

資料探勘之FP_Tree演算法實現

資料探勘之AdaBoost裝袋提升演算法

資料探勘之關聯規則Apriori演算法

零基礎入門大資料探勘之spark的rdd

資料倉庫與資料探勘之Apriori演算法例項

資料探勘之Apriori演算法

資料探勘之方差分析實驗

資料探勘之擬合優度檢驗

大資料探勘之Scala零基礎學習（一）

資料探勘之關聯分析一（基本概念）

資料探勘之無監督學習篇

資料探勘之關聯規則挖掘之Apriori演算法實現

大資料的的超級應用—資料探勘之推薦系統

資料探勘之七種常用的方法

相關推薦