1. 程式人生 > >資料探勘之七種常用的方法

資料探勘之七種常用的方法

資料探勘是指從資料庫的大量資料中揭示出隱含的、先前未知的並有潛在價值的資訊的非平凡過程。

        利用資料探勘進行資料分析常用的方法主要有分類、迴歸分析、聚類、關聯規則、特徵、變化和偏差分析、Web頁挖掘等, 它們分別從不同的角度對資料進行挖掘。 

分類

       分類是找出資料庫中一組資料物件的共同特點並按照分類模式將其劃分為不同的類,其目的是通過分類模型,將資料庫中的資料項對映到某個給定的類別,用於預測資料物件的離散類別。

       分類技術在很多領域都有應用,它可以應用到客戶的分類、客戶的屬性和特徵分析、客戶滿意度分析、客戶的購買趨勢預測等。

當前的市場營銷中很重要的一個特點是強調客戶細分。客戶類別分析的功能也在於此,採用資料探勘中的分類技術,可以將客戶分成不同的類別。比如呼叫中心設計時可以分為:呼叫頻繁的客戶、偶然大量呼叫的客戶、穩定呼叫的客戶、其他,幫助呼叫中心尋找出這些不同種類客戶之間的特徵,這樣的分類模型可以讓使用者瞭解不同行為類別客戶的分佈特徵。

 其他分類應用如文獻檢索和搜尋引擎中的自動文字分類技術;安全領域有基於分類技術的入侵檢測等等。

       而主要分類方法有決策樹、KNN法(K-Nearest Neighbor)、SVM法、VSM法、Bayes法、神經網路等。

迴歸分析

       迴歸分析一個統計預測模型,用以描述和評估應變數與一個或多個自變數之間的關係;反映的是事務資料庫中屬性值在時間上的特徵,產生一個將資料項對映到一個實值預測變數的函式,發現變數或屬性間的依賴關係

       其主要研究問題包括資料序列的趨勢特徵、資料序列的預測以及資料間的相關關係等。

       迴歸分析方法被廣泛地用於解釋市場佔有率、銷售額、品牌偏好及市場營銷效果。它可以應用到市場營銷的各個方面,如客戶尋求、保持和預防客戶流失活動、產品生命週期分析、銷售趨勢預測及有針對性的促銷活動等。

主要表現

(1) 判別自變數是否能解釋因變數的顯著變化----關係是否存在。

(2) 判別自變數能夠在多大程度上解釋因變數----關係的強度。

(3) 判別關係的結構或形式----反映因變數和自變數之間相關的數學表示式。

(4) 預測自變數的值。

(5) 當評價一個特殊變數或一組變數對因變數的貢獻時,對其自變數進行控制。

聚類

       聚類,顧名思義就是按照相似性和差異性,把一組物件劃分成若干類,並且每個類裡面物件之間的相似度較高,不同類裡面物件之間相似度較低或差異明顯。與分類不同的是聚類不依靠給定的類別對物件進行劃分。 

分析演算法分類

(1)劃分方法

(2)層次的方法

(3)基於密度的方法

(4)基於網格的方法

(5)基於模型的方法

       它可以應用到客戶群體的分類、客戶背景分析、客戶購買趨勢預測、市場的細分等。如誰經常光顧商店,誰買什麼東西,買多少?按忠誠卡記錄的光臨次數、光臨時間、年齡、職業等等;還有銀行信用卡的黃金客戶,按儲蓄額、刷卡消費金額和誠信度等。 

關聯規則


關聯規則是描述資料庫中資料項之間所存在的關係的規則可以從一件事情的發生,來推測另外一件事情的發生,即隱藏在資料間的關聯或相互關係,從而更好地瞭解和掌握事物的發展規律等等。

關聯規則資料探勘中最經典的案例就是沃爾瑪的啤酒和尿布的故事。在美國,一些年輕的父親下班後經常要到超市去買嬰兒尿布,而他們中有30%~40%的人同時也為自己買一些啤酒。於是沃爾瑪將啤酒與尿布一起銷售,**提高了銷售額。

       關聯規則的實際應用包括:交叉銷售、郵購目錄的設計、商品擺放、流失客戶分析、基於購買模式進行客戶區隔等等……

      在客戶關係管理中,通過對企業的客戶資料庫裡的大量資料進行挖掘,可以從大量的記錄中發現有趣的關聯關係,找出影響市場營銷效果的關鍵因素,為產品定位、定價與定製客戶群,客戶尋求、細分與保持,市場營銷與推銷,營銷風險評估和詐騙預測等決策支援提供參考依據。 

  特徵

       特徵分析是從資料庫中的一組資料中提取出關於這些資料的特徵式,這些特徵式表達了該資料集的總體特徵。特徵選擇的目的在於從海量資料中提取出有用資訊,從而提高資料的使用效率。

      其中,特徵有效性的選擇評價有概率論、數理統計、資訊理論、IR領域的度量、學**相關的度量等。

      如營銷人員通過對客戶流失因素的特徵提取,可以得到導致客戶流失的一系列原因和主要特徵,利用這些特徵可以有效地預防客戶的流失。

變化和偏差分析

       偏差是資料集中的小比例物件。通常,偏差物件被稱為離群點、例外、野點等。偏差分析是一個有趣的資料探勘任務,其目的是發現與大部分其他物件不同的物件。如分類中的反常例項,模式的例外,觀察結果對期望的偏差等。

       在企業危機管理及其預警中,管理者更感興趣的是那些意外規則。意外規則的挖掘可以應用到各種異常資訊的發現、分析、識別、評價和預警等方面。

       而其成因有資料來源於不同的類、自然變異、資料測量或收集誤差等。 

Web頁挖掘

       通過對Web的挖掘,可以利用Web 的海量資料進行分析,收集政治、經濟、政策、科技、金融、各種市場、競爭對手、供求資訊、客戶等有關的資訊,集中精力分析和處理那些對企業有重大或潛在重大影響的外部環境資訊和內部經營資訊,並根據分析結果找出企業管理過程中出現的各種問題和可能引起危機的先兆,對這些資訊進行分析和處理,以便識別、分析、評價和管理危機。

      Web資料探勘的研究物件是以半結構化和無結構文件為中心的Web,這些資料沒有統一的模式,資料的內容和表示互相交織,資料內容基本上沒有語義資訊進行描述,僅僅依靠HTML語法對資料進行結構上的描述。 

可完成任務

  (1)網路流量分配情況、隨時間變化情況分析。

    (2)網站廣告點選率、投資收益比分析。

    (3)使用者從哪裡進入網站、跳出網站,進入感興趣的頁的方式等出入口分析。

    (4)使用者來源分析。

    (5)訪問站點的使用者的瀏覽器和平臺分析。

    (6)發現經常被使用者一起訪問的頁面集合,作為優化站點的參照。

    (7)聚類行為模式相似的使用者,形成智慧推薦模式;聚類同一群使用者訪問的頁面,幫助發現站點設計的不合理之處。

    (8)預測使用者可能訪問的頁面,行為趨勢分析和使用者分類等。


       資料探勘是一種決策支援過程,它通過高度自動化地分析企業的資料,做出歸納性的推理,從中挖掘出潛在的模式,幫助決策者調整市場策略,減少風險,做出正確的決策,這對於一個企業的發展十分重要。

相關推薦

資料常用方法

資料探勘是指從資料庫的大量資料中揭示出隱含的、先前未知的並有潛在價值的資訊的非平凡過程。         利用資料探勘進行資料分析常用的方法主要有分類、迴歸分析、聚類、關聯規則、特徵、變化和偏差分析、Web頁挖掘等, 它們分別從不同的角度對資料進行挖掘。  分類    

HAWQ + MADlib 玩轉資料)——關聯規則方法Apriori演算法

一、關聯規則簡介        關聯規則挖掘的目標是發現數據項集之間的關聯關係,是資料挖據中一個重要的課題。關聯規則最初是針對購物籃分析(Market Basket Analysis)問題提出的。假設超市經理想更多地瞭解顧客的購物習慣,特別是想知道,哪些商品顧客可能會在一次購

零基礎入門大資料spark中的幾map

今天再來說一下spark裡面的幾種map方法。前面的文章介紹過單純的map,但是spark還有幾種map值得對比一下,主要是下面幾種: map:普通的map flatMap:在普通map的基礎上多了一個操作,扁平化操作; mapPartitions:相對於分割槽P

零基礎入門大資料reduce方法

上節介紹過大資料裡面(以spark為例)最為基礎典型的操作:map方法,map方法直白的理解就是一個分散式接受處理函式的方法,形式如map(fun),map方法本身不做處理,沒有map方法,裡面的函式fun就是一個單機的處理函式,有了map,相當於就把這個函式複製到多臺機器上,每臺機器同

資料挖掘頻繁模式的基本概念及方法

摘自《DATA MINING:Concepts and Techniques》一書,以及個人理解,主要為自己鞏固和總結,如有紕漏和出錯的地方,還請指出。此書第六章開頭指出    頻繁模式(frequent pattern),是指頻繁地出現在資料集中的模式,譬如項集,子序列或子

資料售房資料分析1

最近再做一批關於售房的資料,感覺自己陷入一個死衚衕裡: 該批資料是儲存再postgresql裡面,是從某售房網站上爬下來的,以資料庫中的一列欄位作為儲存資料,該列欄位是以json的資料形式儲存的,這裡跟我打開了一個新大門,資料庫能儲存json資料格式的資料,而且postgresql還有一套專門的

資料十大經典演算法

國際權威的學術組織the IEEE International Conference on Data Mining (ICDM) 2006年12月評選出了資料探勘領域的十大經典演算法:C4.5, k-Means, SVM, Apriori, EM, PageRank, AdaBoost, k

資料FP_Tree演算法實現

轉自http://www.cnblogs.com/zhangchaoyang/articles/2198946.html (格式複製之後有變化,建議直接點連結去部落格園看原文) python程式碼見https://github.com/yantijin/Lean_DataMining F

資料AdaBoost裝袋提升演算法

python3程式碼實現在https://github.com/yantijin/Lean_DataMining上,時間匆忙,敬請之處錯誤之處,謝謝! 以下內容轉自:https://blog.csdn.net/androidlushangderen/article/details/4363511

資料關聯規則Apriori演算法

一、Aoriori原始演算法: 頻繁挖掘模式與關聯規則 關聯規則兩個基本的指標(假設有事務A和事務B)   1、支援度(suport):計算公式如下        2、置信度(confidence):    關聯規則的挖掘過程:   1、設定最小支援度閾值,找出所有的頻繁項集且每個出現的次數要

零基礎入門大資料spark的rdd

本節簡單介紹一下spark下的基本資料結構RDD,方便理解後續的更多操作。 那麼第一個問題,什麼是rdd。我們知道,大資料一般儲存在分散式叢集裡面,那麼你在對其進行處理的時候總得把它讀出來吧,讀出來後總得把它存成某種格式的檔案吧,就好比程式語言裡面的,這個資料是陣列,那麼你可以以陣列

資料倉庫與資料Apriori演算法例項

最近剛上了資料探勘這門課,老師講了兩個演算法,即Apriori演算法和FP-growth演算法,然後佈置了上機作業,挖掘一個有8萬行的記錄的retail.dat,需要從中找出強規則,即同時滿足最小支援度和最小置信度的規則。 Apriori演算法 在這裡給出一個實現找出所有頻繁模式集的

資料Apriori演算法

python3程式碼如下: #coding = utf-8 import numpy #from python_util import fileread """ 程式所需部分: 建立初始的候選集 根據Lk產生Lk+1

資料方差分析實驗

本部落格根據非常好的excel資料而編寫,使用python語言操作,預計使用一週的時間更新完成。需要《非常好的excel資料》word文件,歡迎發郵件給[email protected],免費發放。這篇部落格對應《非常好的excel資料》裡的第5章節。 1.1 單因素方差分析

資料擬合優度檢驗

本部落格根據非常好的excel資料而編寫,使用python語言操作,預計使用一週的時間更新完成。需要《非常好的excel資料》word文件,歡迎發郵件給[email protected],免費發放。這篇部落格對應《非常好的excel資料》裡的第4章節。 自由度v=(行數-1)(

資料Scala零基礎學習(一)

第5章 函式5.1函式程式程式碼:object section5_1 extends App { // def gcd(x:Int,y:Int):Int=if(x%y==0) y else gcd(

資料關聯分析一(基本概念)

許多商業企業運營中的大量資料,通常稱為購物籃事務(market basket transaction)。表中每一行對應一個事務,包含一個唯一標識TID。 利用關聯分析的方法可以發現聯絡如關聯規則或頻繁項集。 關聯分析需要處理的關鍵問題: 1. 從大型事

資料無監督學習篇

在單鏈接(或單鏈)層次聚類中,兩個聚類之間的距離是兩個聚類中最近的兩個資料點(兩個資料分別來自兩上不同的聚類)之間的距離。即單鏈接聚類演算法在每一步合併那些最近元素具有最小的聚類,即最短最近資料點的兩上聚類。

資料關聯規則挖掘Apriori演算法實現

演算法細節見論文:Fast Algorithm for Mining Association Rules 控制檯版本C++程式碼如下: #include <iostream> #include <sstream> #include <fs

資料的的超級應用—資料推薦系統

資料探勘——推薦系統   大資料可以認為是許多資料的聚合,資料探勘是把這些資料的價值發掘出來,比如有過去10年的氣象資料,通過資料探勘,幾乎可以預測明天的天氣是怎麼樣的,有較大概率是正確的。 機器學習是人工智慧的核心,對大資料進行發掘,靠人工肯定是做不來的,那就得靠機器代替