非常值得收藏的 IBM SPSS Modeler 演算法簡介
IBM SPSS Modeler以圖形化的介面、簡單的拖拽方式來快速構建資料探勘分析模型著稱,它提供了完整的統計挖掘功能,包括來自於統計學、機器學習、人工智慧等方面的分析演算法和資料模型,包括如關聯、分類、預測等完整的全面挖掘分析功能,下面讓我們一起來了解這些演算法:
首先,針對剛入門資料探勘領域的初學者來說,即使你不懂資料探勘演算法,你一樣可以使用SPSS Modeler進行建模,這裡提供了自動建模器,可以幫助你自動選擇最優演算法,包括有:
“自動分類器”節點:用於建立和對比二元結果(是或否,流失或不流失等)的若干不同模型,使使用者可以選擇給定分析的最佳處理方法。由於支援多種建模演算法,因此可以對使用者希望使用的方法、每種方法的特定選項以及對比結果的標準進行選擇。節點根據指定的選項生成一組模型並根據使用者指定的標準排列最佳候選項的順序。
自動數值節點:使用多種不同方法估計和對比模型的連續數字範圍結果。此節點和自動分類器節點的工作方式相同,因此可以選擇要使用和要在單個建模傳遞中使用多個選項組合進行測試的演算法。受支援的演算法包括神經網路、C&R樹、CHAID、線性迴歸、廣義線性迴歸以及Support Vector Machine (SVM)。可基於相關度、相對錯誤或已用變數數對模型進行對比。
自動聚類節點:估算和比較識別具有類似特徵記錄組的聚類模型。節點工作方式與其他自動建模節點相同,使您在一次建模執行中即可試驗多個選項組合。模型可使用基本測量進行比較,以嘗試過濾聚類模型的有效性以及對其進行排序,並提供一個基於特定欄位的重要性的測量。
時間序列節點:可為時間序列估計指數平滑模型、單變數綜合自迴歸移動平均(ARIMA) 模型和多變數ARIMA(或變換函式)模型並基於時間序列資料生成預測。
接下來,是分類演算法的介紹,分類是資料探勘裡面最常用的分析方式,它的計算邏輯是自我學習的過程,即有監督的學習,你需要給他一個目標,給他一些影響因素,它會自動找到影響因素與目標之間隱藏的規則。
C&R樹節點:生成可用於預測或分類未來觀測值的決策樹。該方法通過在每個步驟最大限度降低不純潔度,使用遞迴分割槽來將訓練記錄分割為組。如果節點中100% 的觀測值都屬於目標欄位的一個特定類別,則樹中的該節點將被認定為“純潔”。目標和輸入欄位可以是數字範圍或分類(名義、有序或標誌);所有分割均為二元分割(即僅分割為兩個子組)。
QUEST節點:可提供用於構建決策樹的二元分類法,此方法的設計目的是減少大型C&R 樹分析所需的處理時間,同時也減少在分類樹方法中發現的趨勢以便支援允許有多個分割的輸入。輸入欄位可以是數字範圍(連續),但目標欄位必須是分類。所有分割都是二元的。
CHAID節點:使用卡方統計量來生成決策樹,以確定最佳的分割。CHAID 與C&R樹和QUEST 節點不同,它可以生成非二元樹,這意味著有些分割將有多於兩個的分支。目標和輸入欄位可以是數字範圍(連續)或分類。Exhaustive CHAID 是CHAID 的修正版,它對所有分割進行更徹底的檢查,但計算時間比較長。
決策列表節點:可標識子組或段,顯示與總體相關的給定二元結果的似然度的高低。例如,您或許在尋找那些最不可能流失的客戶或最有可能對某個商業活動作出積極響應的客戶。通過定製段和並排預覽備選模型來比較結果,您可以將自己的業務知識體現在模型中。決策列表模型由一組規則構成,其中每個規則具備一個條件和一個結果。規則依順序應用,相匹配的第一個規則將決定結果。
線性模型節點:根據目標與一個或多個預測變數間的線性關係來預測連續目標。
線性迴歸節點:是一種通過擬合直線或平面以實現彙總資料和預測的普通統計方法,它可使預測值和實際輸出值之間的差異最小化。
因子/主成分分析節點:提供了用於降低資料複雜程度的強大資料縮減技術。主成份分析(PCA)可找出輸入欄位的線性組合,該組合最好地捕獲了整個欄位集合中的方差,且組合中的各個成分相互正交(相互垂直)。因子分析則嘗試識別底層因素,這些因素說明了觀測的欄位集合內的相關模式。這兩種方式的目標都是找到有效概括原始欄位集中的資訊的一小部分匯出欄位。
神經網路節點:使用的模型是對人類大腦處理資訊的方式簡化了的模型。此模型通過模擬大量類似於神經元的抽象形式的互連簡單處理單元而執行。神經網路是功能強大的一般函式估計器,只需要最少的統計或數學知識就可以對其進行訓練或應用。
C5.0節點:構建決策樹或規則集。該模型的工作原理是根據在每個級別提供最大資訊收穫的欄位分割樣本。目標欄位必須為分類欄位。允許進行多次多於兩個子組的分割。
“特徵選擇”節點:會根據某組條件(例如缺失值百分比)篩選可刪除的輸入欄位;對於保留的輸入,將相對於指定目標對其重要性進行排序。例如,假如某個給定資料集有上千個潛在輸入,那麼哪些輸入最有可能用於對患者結果進行建模呢?
判別式分析節點:所做的假設比logistic 迴歸的假設更嚴格,但在符合這些假設時,判別式分析可以作為logistic 迴歸分析的有用替代項或補充。
Logistic 迴歸節點:是一種統計方法,它可根據輸入欄位的值對記錄進行分類。它類似於線性迴歸,但採用的是類別目標欄位而非數字範圍。
“廣義線性”模型節點:對一般線性模型進行了擴充套件,這樣因變數通過指定的關聯函式與因子和協變數線性相關。另外,該模型允許因變數呈非正態分佈。它包括統計模型大部分的功能,其中包括線性迴歸、logistic 迴歸、用於計數資料的對數線性模型以及區間刪失生存模型。
Cox 迴歸節點:可為時間事件資料構建預測模型。該模型會生成一個生存函式,該函式可預測在給定時間t 內對於所給定的預測變數值相關事件的發生概率。
SVM (Support Vector Machine)節點:使用該節點,可以將資料分為兩組,而無需過度擬合。SVM 可以與大量資料集配合使用,如那些含有大量輸入欄位的資料集。
貝葉斯網路節點:可以利用該節點對真實世界認知的判斷力並結合所觀察和記錄的證據來構建概率模型。該節點重點應用了樹擴充套件簡單貝葉斯(TAN) 和馬爾可夫毯網路,這些演算法主要用於分類問題。
自學響應模型(SLRM) 節點:利用該節點可以構建這樣的模型:隨著資料集的增長,可以不斷對其進行更新或重新估計,而不必每次使用整個資料集重新構建該模型。例如,如果有若干產品,而您希望確定某位客戶獲得報價後最有可能購買的產品,那麼這種模型將十分有用。此模型可用於預測最適合客戶的報價,以及該報價被接受的概率。
KNN (k-最近相鄰元素)節點:將新的個案關聯到預測變數空間中與其最鄰近的k 個物件的類別或值(其中k 為整數)。類似個案相互靠近,而不同個案相互遠離。
聚類演算法我們也稱為無監督學習,是與分類演算法的有監督學習相對而言。一般在資料初探的時候,經常會用到,比如客戶細分、市場細分等等。
K-Means 節點:將資料集聚類到不同分組(或聚類)。此方法將定義固定的聚類數量,將記錄迭代分配給聚類,以及調整聚類中心,直到進一步優化無法再改進模型。k-means 節點作為一種非監督學習機制,它並不試圖預測結果,而是揭示隱含在輸入欄位集中的模式。
Kohonen節點:會生成一種神經網路,此神經網路可用於將資料集聚類到各個差異組。此網路訓練完成後,相似的記錄應在輸出對映中緊密地聚集,有差異的記錄則應彼此遠離。您可以通過檢視模型塊中每個單元所捕獲觀測值的數量來找出規模較大的單元。這將讓您對聚類的相應數量有所估計。
TwoStep 節點:使用兩步聚類方法。第一步完成簡單資料處理,以便將原始輸入資料壓縮為可管理的子聚類集合。第二步使用層級聚類方法將子聚類一步一步合併為更大的聚類。TwoStep 具有一個優點,就是能夠為訓練資料自動估計最佳聚類數。它可以高效處理混合的欄位型別和大型的資料集。
關聯分析在零售行業應用最為廣泛,最傳統的就是購物籃分析,淘寶上的“猜你喜歡”最常用的分析方式。
“先驗”節點:從資料抽取一組規則,即抽取資訊內容最多的規則。“先驗”節點提供五種選擇規則的方法並使用複雜的索引模式來高效地處理大資料集。對於大問題而言,“先驗”通常用於訓練時比GRI 處理速度快;它對可保留的規則數量沒有任何限制,而且可處理最多帶有32 個前提條件的規則。“先驗”要求輸入和輸出欄位均為分型別欄位,但因為它專為處理此型別資料而進行優化,因而處理速度快得多。
CARMA節點:使用關聯規則發現演算法來發現資料中的關聯規則。例如,您可以使用此節點生成的規則來查詢一系列產品或服務(條件),其結果是您要在此假期內進行促銷的專案。
序列節點:可發現連續資料或與時間有關的資料中的關聯規則。序列是一系列可能會以可預測順序發生的專案集合。例如,一個購買了剃刀和須後水的顧客可能在下次購物時購買剃鬚膏。序列節點基於CARMA 關聯規則演算法,該演算法使用有效的兩步法來發現序列。
異常檢測主要是在多維樣本空間裡面,找出偏離“大眾”最大的那些樣本點出來,在SPSS Modeler裡面,它是先聚類,生成幾大類之後,再找出偏離這些類最大的那些樣本點。
“異常檢測”節點:確定不符合“正常”資料格式的異常觀測值(離群值)。即使離群值不匹配任何已知格式或使用者不清楚自己的查詢物件,也可以使用此節點來確定離群值。
社交網路分析是當前流行的朋友圈找出“領導者”與“傳播者”的分析方法,它的應用可以是“種子營銷”,或者叫“病毒營銷”。
IBM SPSS Modeler Social Network Analysis 通過將關係資訊處理為可包括在模型中的附加欄位,匯出的關鍵績效指標衡量個人的社交特徵。將這些社交屬性與基於個人的衡量結合起來,提供對個人的更好概覽,因此可提高您模型的預測精度。