1. 程式人生 > >一小時瞭解資料探勘②:分類演算法的應用和成熟案例解析

一小時瞭解資料探勘②:分類演算法的應用和成熟案例解析

資料探勘

分類演算法的應用

本節將為大家介紹資料探勘中的分類演算法在一些行業中的代表性應用。我們將演算法應用分為表述問題和解決過程兩個階段,表述問題即需要運用資料探勘能夠理解和處理的語言來闡述業務問題,最重要的是能夠用正確且符合實際的方式把業務問題轉化成資料探勘問題,這往往決定了後續工作是否能有效的展開,嘗試解決一個不符合實際的業務問題往往會使得資料探勘的工作陷入資料的海洋中,既費時費力又得不到想要的結果。而解決過程,顧名思義就是將表述清楚的問題通過資料探勘的方法加以解決的過程。在我們把業務領域的問題很清晰地轉化為資料探勘領域的問題之後,解決問題也就變得相對直截了當。

分類演算法的應用非常廣泛,只要是牽涉到把客戶、人群、地區、商品等按照不同屬性區分開的場景都可以使用分類演算法。例如我們可以通過客戶分類構造一個分類模型來對銀行貸款進行風險評估,通過人群分類來評估酒店或飯店如何定價,通過商品分類來考慮市場整體營銷策略等。

在當前的市場營銷行為中很重要的一個特點是強調目標客戶細分。無論是銀行對貸款風險的評估還是營銷中的目標客戶(或市場)細分,其實都屬於分類演算法中客戶類別分析的範疇。而客戶類別分析的功能也正在於此:採用資料探勘中的分類技術,將客戶分成不同的類別,以便於提高企業的決策效率和準確度。例如呼叫中心設計時可以分為呼叫頻繁的客戶、偶然大量呼叫的客戶、穩定呼叫的客戶和其他客戶,以幫助呼叫中心尋找出這些不同種類客戶的特徵。這樣的分類模型可以讓呼叫中心瞭解不同行為類別客戶的分佈特徵。

下面是幾個做得比較成熟的具體分類應用描述和解決過程。

直郵營銷(Direct Mail)

直郵營銷是直效行銷的一種,是把傳統郵件直接傳送給消費者的營銷方式,而且很多傳統行業把直郵營銷作為整個營銷體系中一個重要的組成部分,涉及的行業主要是大型商場、大賣場、商業連鎖店鋪、專賣店等。當然由於直郵營銷的應用很廣,所以這種方式也同樣適用於其他行業。

案例闡述:A公司是一家汽車4S店,公司擁有完備的客戶歷史消費資料庫,現公司準備舉辦一次高階品牌汽車的促銷活動,為配合這次促銷活動,公司計劃為潛在客戶(主要是新客戶)寄去一份精美的汽車銷售材料並附帶一份小禮品。由於資源有限,公司僅有1000份材料和禮品的預算額度。

表述問題:這裡新客戶是指在店中留下過詳細資料但又沒有消費記錄的客戶。這次促銷活動的要求是轉化收到這1000份材料和禮品的新客戶,讓儘量多的新客戶能夠最終成為4S店的消費客戶。

解決問題:公司首先找出與這次促銷活動類似的已經舉辦過的促銷活動的歷史消費資料,再將這個歷史資料集中,把促銷結果分成正反兩類,正類用來表示可以最終消費的客戶。通過歷史資料的訓練我們可以得出一個分類器,如果用的是決策樹,我們還能夠得出一個類似If-Then(如果-就)的規則,而這個規則能夠揭示參加促銷活動並最終消費的客戶的主要特徵。由於分類結果最後可以表示成概率形式,如此,用經過測試集測試過的分類器對新客戶進行分類,將得到的正類客戶的概率由大到小排序,這樣就可以生成一個客戶列表,營銷人員按著這個表由上至下數出前1000個客戶並向他們寄出材料和禮品即可。

客戶流失模型

這一模型的應用出現在我國的行動通訊行業,其目的主要是為了降低客戶流失率。

案例闡述:我國的行動通訊行業經過了前幾年的高速發展,近一段時間的發展速度逐漸緩慢下來。註冊使用者常常處於一種動態變化的狀態,即不斷有老客戶離網,又不斷有新客戶入網。大量的低消費客戶和大量老客戶的離網使得行動通訊公司無法快速向前發展。

表述問題:當務之急在於降低客戶流失率,這裡需要解決的問題是如何找出這些將要流失的客戶,如何採取適當的挽留措施減少客戶的流失。

解決問題:我們需要建設客戶流失模型。和直郵營銷一樣,其目的也是為了對新客戶進行分類。只不過客戶流失模型是為了找出那些不穩定易流失的客戶。整個建模過程與直郵營銷類似。行動通訊企業的最大優勢在於這類公司的規模往往很大,資料收集和儲存的能力也比一般企業強很多,所以它們會擁有較詳細的客戶消費資料,這對於資料探勘的最終成功有著非常重要的作用。

垃圾郵件處理

案例闡述:對於企業和個人,如何處理垃圾郵件都是很頭疼的一件事情。在盤石公司開發的磐郵系統中,每個客戶可以有300G的郵件儲存容量,雖然有足夠的容量容納垃圾郵件,但是沒有過濾掉的垃圾郵件仍然會造成糟糕的使用者體驗。表述問題:如何對每個郵箱中收到的每封郵件進行處理,將有用郵件保留而過濾掉垃圾郵件是使用者關心的一大問題。

解決問題:目前的垃圾郵件過濾方法主要是採用文字挖掘技術(Text Mining)。作為資料探勘的重要分支,文字挖掘在資料探勘傳統方法的基礎上引入了語義處理等其他學科知識。在垃圾郵件過濾的分類技術中最常見的是貝葉斯分類法。貝葉斯分類法主要是通過對郵件的信封標題、主題和內容進行掃描和判別。

近來,因為垃圾郵件傳送方式隨著各家企業郵箱開發商的反垃圾技術的提升而變化,通過附件(PDF、影象等)方式傳送垃圾郵件的專業戶也越來越多,所以掃描的內容又增加了一項檢查附件的工作。

信用卡分級

案例闡述:現如今金融行業的競爭異常激烈。在美國,出現在每一家郵箱裡最多的信件恐怕就是信用卡邀請信。如何吸引合適的使用者來使用信用卡,以及準確分析申請人的信用風險,是每個商業銀行最關注也是最頭痛的事情。銀行要不惜一切代價吸引低風險高價值的客戶,但是對於高風險的信用卡申請者要儘量避免。

表述問題:如何把信用卡申請者分類為低、中、高風險。

解決問題:我們需要建設客戶風險模型對客戶的風險進行分類。整個建模過程與直郵營銷類似。不過因為行業的特殊性,申請表中包含了大量關於使用者的個人資訊,再加上通常會做的客戶信用查詢,可以用來參考的資料維度比前面的三個案例都要多一些,所以相對來說建模的精準度也會高很多。

除了上面列出的四種典型問題之外,分類資料探勘還有很多不同型別的應用,例如文獻檢索和搜尋引擎中的自動文字分類技術,安全領域的入侵檢測等。

不過,不是所有分類的場景使用分類資料探勘都有實際操作性。美國政府曾在“9·11”發生後提出一項全面資訊識別計劃(Total Information Awareness Project),這項計劃的目的是建立系統,利用資料探勘技術對全美居民的通話記錄和信用卡支付記錄等海量資料資訊進行分析,並利用這個系統來識別隱藏在美國的全部恐怖分子。除去涉及的個人隱私問題和海量資料如何獲取和處理的問題之外,單純從資料探勘問題本身來說,這個計劃的可行性就要打個大問號。假設通過資料探勘技術建立了一個99%的分類器來識別恐怖分子,雖然這個分類器的精度已經是相當好了,但是整個美國一天之中可產生的相關資料保守估計就會有約十億條,在產生如此龐大的增量情況下,這個99%的分類器每天至少也要忽略掉近千萬條可疑資料,那麼就可以說這種分類器幾乎毫無用處。可能是基於這個原因,2003年這個計劃被終止,雖然之後還是有若干個類似的計劃被提出並嘗試,但其效果都很有限。正如前所述,除非另闢捷徑,否則這項計劃能夠成功實施的可能性很小。

下篇預告:資料探勘分類技術

節選譚磊所著的自《大資料探勘》一書。未完待續……