資料探勘產品 IBM SPSS Modeler 新手使用入門
作為 IBM 分析與預測解決方案的重要組成部分,IBM SPSS Modeler 是一組資料探勘工具,通過這些工具可以採用商業技術快速建立預測性模型,並將其應用於商業活動,從而改進決策過程。隨著於 2010 年其新版本 14.1 的釋出,名字也由 PASW Modeler 更名為現在的 IBM SPSS Modeler 。
SPSS Modeler 提供了各種藉助機器學習、人工智慧和統計學的建模方法。通過建模選項板中的方法,您可以根據資料生成新的資訊以及開發預測模型。每種方法各有所長,同時適用於解決特定型別的問題。
初次上手
典型的 SPSS Modeler 介面如下:
圖 1. SPSS Modeler 介面
接下來將詳細介紹其基本概念及操作。
基本概念:節點
節點代表要對資料執行的操作。
例如,假定您需要開啟某個資料來源、新增新欄位、根據新欄位中的值選擇記錄,然後在表中顯示結果。在這種情況下,您的資料流應由以下四個節點組成:
表 1. 節點示例
變數檔案節點,設定此節點後可以讀取資料來源中的資料。 | ||
匯出節點,用於向資料集中新增計算的新欄位。 | ||
選擇節點,用於設定選擇標準,以從資料流中排除某些記錄。 | ||
表節點,用於在螢幕上顯示操作結果。 |
基本概念:資料流
SPSS Modeler 進行的資料探勘重點關注通過一系列節點執行資料的過程,我們將這一過程稱為資料流。也可以說 SPSS Modeler 是以資料流為驅動的產品。這一系列節點代表要對資料執行的操作,而節點之間的連結指示資料的流動方向。如,上面提到的四個節點可以建立如下資料流:
圖 2. 資料流示例
通常,SPSS Modeler 將資料以一條條記錄的形式讀入,然後通過對資料進行一系列操作,最後將其傳送至某個地方(可以是模型,或某種格式的資料輸出)。使用 SPSS Modeler 處理資料的三個步驟:
- 將資料讀入 SPSS Modeler。
- 通過一系列操縱執行資料。
- 將資料傳送到目標位置。
在 SPSS Modeler 中,可以通過開啟新的資料流來一次處理多個數據流。會話期間,可以在 SPSS Modeler 視窗右上角的流管理器中管理開啟的多個數據流。
圖 3. 流管理器
節點選項板
節點選項板位於流工作區下方視窗的底部。
圖 4. 節點選項板
每個選項板選項卡均包含一組不同的流操作階段中使用的相關節點,如:
- 源:此類節點可將資料匯入 SPSS Modeler,如資料庫、文字檔案、SPSS Statistics 資料檔案、Excel、XML 等。
- 記錄選項:此類節點可對資料記錄執行操作,如選擇、合併和追加等。
- 欄位選項:此類節點可對資料欄位執行操作,如過濾、匯出新欄位和確定給定欄位的測量級別等。
- 圖形:此類節點可在建模前後以圖表形式顯示資料。圖形包括散點圖、直方圖、網路節點和評估圖表等。
- 建模:此類節點可使用 SPSS Modeler 中提供的建模演算法,如神經網路、決策樹、聚類演算法和資料排序等。
- 資料庫建模:節點使用 Microsoft SQL Server、IBM DB2 和 Oracle 資料庫中可用的建模演算法直接在資料庫裡進行建模及評估。
- 輸出:節點生成資料、圖表和可在 SPSS Modeler 中檢視的模型等多種輸出結果。
- 匯出:節點生成可在外部應用程式(如 IBM SPSS Data Collection 或 Excel)中檢視的多種輸出。
- IBM SPSS Statistics:節點將 IBM SPSS Statistics 資料匯入或匯出為 SPSS Statistics 資料,以及執行 SPSS Statistics 提供的功能。
隨著對 SPSS Modeler 的熟悉,您可以在收藏夾自定義常用的選項板內容。
使用節點和流
要將節點新增到工作區,請在節點選項板中雙擊圖示或將其拖放到工作區。已新增到流工作區的節點在連線之前不會形成資料流,可以將各個圖示連線以建立一個表示資料流動的流,節點之間的連線指示資料從一項操作流向下一項操作的方向。
SPSS Modeler 中最常見的滑鼠用法如下所示:
- 單擊。使用滑鼠左鍵或右鍵選擇選單選項,開啟上下文相關選單以及訪問其他各種標準控制元件和選項。單擊節點並按住按鍵可拖動節點。
- 雙擊。雙擊滑鼠左鍵可將節點置於流工作區,編輯工作區現有節點。
- 中鍵單擊。單擊滑鼠中鍵並拖動游標可在流工作區中連線節點。雙擊滑鼠中鍵可斷開某個節點的連線。如果沒有三鍵滑鼠,可在單擊並拖動滑鼠時通過按 Alt 鍵來模擬此功能。
建立了流以後,可以對流進行儲存、添加註解,將其新增到工程。從檔案主選單中,選擇流屬性還可以為流設定各種選項,如優化、日期和時間設定、引數和指令碼。使用流屬性對話方塊中的訊息選項卡,可以輕鬆檢視有關執行、優化和模型構建和評估所用時間等流操作有關的訊息,流操作的錯誤訊息也將在這裡報告。
SPSS Modeler 管理器
可以使用流選項卡開啟、重新命名、儲存和刪除在會話中建立的多個流。
圖 5. 流管理器
輸出選項卡中包含由 SPSS Modeler 中的流操作生成的輸出或圖形檔案。您可以顯示、儲存、重新命名和關閉此選項上列出的表格、圖形和報告。
圖 6. 輸出檔案管理器
模型選項卡是管理器選項卡中功能最強大的選項卡。該選項卡中包含所有模型塊,如當前會話中生成的模型,通過 PMML 匯入的模型等。這些模型可以直接從模型選項卡上瀏覽或將其新增到工作區的流中進行資料分析。
圖 7. 模型管理器
視窗右側底部是工程工具,用於建立和管理資料探勘工程(與資料探勘任務相關的檔案組)。有兩種方式可檢視您在 SPSS Modeler 中建立的工程 - 類檢視或 CRISP-DM 檢視。
依據跨行業資料探勘過程標準 CRISP-DM選項卡提供了一種組織工程的方式。不論是有經驗的資料探勘人員還是新手,使用 CRISP-DM 工具都會使您事半功倍。
圖 8. 工程工具 -CRISP-DM 檢視
類選項卡提供了一種在 SPSS Modeler 中按類別(按照所建立物件的類別)組織您工作的方式。此檢視在獲取資料、流、模型的詳盡目錄時十分有用。
圖 9. 工程工具 - 類檢視
建模簡介
模型是一組規則、公式或方程式,可以用它們根據一組輸入或變數來預測輸出。例如,一家財務機構可根據對過往申請人的已知資訊,使用模型預測貸款申請人可能存在優良還是不良風險。預測結果是預測性分析的中心目標,瞭解建模過程是使用 SPSS Modeler 的關鍵。
圖 10. 簡單的決策樹模型
本示例使用 CHAID(卡方自動互動效應檢測)模型,通過一系列決策規則對記錄進行分類(並預測使用者響應),例如:
如果收入 = 中等 並且卡 <5 則 ->“優良” |
本示例旨在介紹使用 SPSS Modeler 進行資料探勘的基本流程,其中大部分概念可廣泛應用於 SPSS Modeler 中的其他建模型別。
無論要了解哪種模型,均需要首先了解進入該模型的資料。此示例中的資料包含有關銀行客戶的資訊。其中使用了下列欄位:
表 2. 資料欄位
欄位名 | 描述 |
---|---|
Credit_rating | 信用評價:0= 不良,1= 優良,9= 丟失值 |
年齡 | 客戶年齡 |
收入 | 收入水平:1= 低,2= 中,3= 高 |
Credit_cards | 持有的信用卡數量:1= 少於五張,2= 五張或更多 |
教育 | 教育程度:1= 高中,2= 大學 |
Car_loans | 貸款的汽車數量:1= 沒有或一輛,2= 超過兩輛 |
銀行可維護銀行貸款客戶的歷史資訊,包括客戶是正常還貸(信用評價 = 優良)還是在拖欠貸款(信用評價 = 不良)。銀行希望使用現有的資料建立一個模型,允許他們預測未來貸款申請人拖欠貸款的可能性。使用決策樹模型,您可分析這兩組客戶的特徵,並預測不良客戶拖欠貸款的可能性。
構建流
本示例使用了名為 modelingintro.str的流,資料檔案是 tree_credit.sav。(與示例一起使用的資料檔案和樣本流安裝在產品安裝目錄下的 Demos 資料夾中。)
我們來看一下流:
- 從主選單中選擇下列選項:檔案 > 開啟流
- 單擊‘開啟’對話方塊的工具欄上的金色模型塊圖示,然後選擇 Demos 資料夾。見圖示。
- 雙擊 streams 資料夾。
- 雙擊名為 modelingintro.str的檔案。
圖 11. ‘開啟’對話方塊
在本例中,我們使用 CHAID 建模節點。CHAID,或卡方自動互動效應檢測,是一種通過使用稱作卡方統計量的特定統計型別識別決策樹中的最優分割來構建決策樹的分類方法。
要構建流以建立模型,至少需要三個元素:
- 從外部源讀取資料的源節點,在本示例中為 IBM SPSS Statistics 資料檔案。
- 指定欄位屬性的型別節點,欄位屬性包括測量級別(欄位包含的資料型別)以及每個欄位在建模過程中的角色是目標還是輸入等。
- 在執行流時生成模型塊的建模節點。
該流中還包含表節點和分析節點,當建立模型塊並將其新增到流以後,可使用這兩個節點檢視評分結果以評估模型。
圖 12. 流 modelingintro.str
Statistics 檔案源節點從 tree_credit.sav 資料檔案讀取 SPSS Statistics 格式資料,該檔案安裝在 Demos 資料夾中。(名為 $CLEO_DEMOS 的特殊變數用於引用安裝目錄位於 Demos 目錄下的檔案。這樣,無論當前的安裝資料夾或版本是什麼,均可以確保路徑有效。如在本例中可以寫作:$CLEO_DEMOS/tree_credit.sav,與圖中全路徑效果是一樣的。)
圖 13. 源節點
型別節點指定每個欄位的測量級別。測量級別是一種指示欄位中資料型別的類別。我們的源資料檔案使用三種不同的測量級別:
連續欄位(Continuous,例如年齡欄位)包含連續的數字值,而名義欄位(Nominal,例如信用評價欄位)有兩個或多個不同值,如不良、優良或無信用歷史。有序欄位(Ordinal,例如收入水平欄位)用於描述具有順序固定的不同值的資料,在本例中為低、中和高。
對於每個欄位,型別節點還指定角色,以指示每個欄位在建模中扮演的部分。欄位信用評價(Credit rating)指示指定的客戶是否拖欠貸款,這是要預測的目標欄位,將其角色設定為目標。對於其他欄位,將角色設定為輸入。輸入欄位也稱為預測變數,即建模演算法用來預測目標欄位值的欄位。
CHAID建模節點生成模型。在建模節點的欄位選項卡中,已選中使用預定義角色,這意味著將使用在型別節點中指定的目標欄位和輸入欄位。可以在此處更改欄位角色,但在本例中不做任何更改。
圖 14. CHAID 模型節點 - 欄位頁
單擊‘構建選項’選項卡。
圖 15. CHAID 模型節點 - 構建選項頁 - 目標項
此處包含的選項可以用於指定要構建的模型型別。由於我們想要一個全新的模型,因此使用預設選項構建新模型。我們還要求它為單個標準決策樹模型,並且不使用任何增強,因此保留預設目標選項構建單個樹。還可以選擇啟動互動會話對模型進行手動的微調,本示例只使用預設設定來生成模型。
對於此示例,我們希望保持樹的結構簡單,因此通過增加用於父節點和子節點的最小記錄數限制樹的增長。
- 在構建選項選項卡上,從左側的導航器窗格選擇停止規則。
- 選擇使用絕對值選項。
- 將父分支中的最小記錄數設定為 400。
- 將子分支中的最小記錄數設定為 200。
圖 16. CHAID 模型節點 - 構建選項頁 - 停止規則項
我們可以使用所有其他預設選項,然後單擊執行以建立模型。(或者,也可以右鍵單擊該節點然後選擇執行,或選擇節點並從工具主選單中選擇執行。)
瀏覽模型
等一小段時間當流執行完成後,模型塊將被新增到應用程式視窗右上角的模型選項板中,它還會被自動連線在流工作區中,並帶有指向建立它的建模節點的連結。要檢視模型的詳細資訊,右鍵單擊模型塊並選擇瀏覽(在模型選項板上)或編輯(在工作區上)。
圖 17. 包含模型塊的流 modelingintro.str
對於 CHAID 模型塊,模型選項卡以規則集的形式顯示詳細資訊,規則集實際上是可根據不同輸入欄位的值將各個記錄分配給相應子節點的一組規則。
圖 18. CHAID 模型塊 - 模型頁
對於每個決策樹終端節點 -- 意味著那些樹節點沒有再進一步拆分 -- 返回優良或不良的預測值。對於落在該節點內的記錄,所有個案中的預測均由模式或最常見的響應決定。
在規則集的右側,模型選項卡顯示預測變數重要性圖表,該圖表顯示評估模型時每個預測變數的相對重要性。通過這一點,我們看到收入水平 (Income level)在此個案中最顯著,而其他唯一顯著的因子是信用卡數量(Number of credit cards)。
圖 19. CHAID 模型塊 - 變數重要性
模型塊中的檢視器選項卡以樹的形式顯示相同的模型,每個決策點上都有一個節點。可使用工具欄上的縮放控制元件放大特定節點,或縮小節點以檢視更完整的樹。
圖 20. CHAID 模型塊 - 檢視器頁
檢視樹的上部分,第一個節點(節點 0)為我們提供資料集中所有記錄的摘要。資料集中超過 40% 的個案分類為不良風險。這是相當高的比例,因此讓我們看看樹能否提示哪些因素起決定作用。我們可以看到第一個分割是根據收入水平產生的。收入水平位於低類別的記錄被指定到節點 2,可以看到此類別包含貸款拖欠的百分比最高 --82%。因此我們認為此類別的客戶都具有高風險。但是要注意的是,此類別中有 16% 客戶實際上沒有拖欠,因此說預測並非始終準確。事實上沒有模型能夠精確預測所有的結果,但好的模型能夠根據可用資料預測出最接近的結果。
同樣,如果我們檢視高收入客戶(節點 1),我們看到絕大部分 (89%) 是優良風險。但是在這個類別中 10 位客戶也有 1 位會拖欠。還能繼續精煉貸款標準以便將此處的風險最小化嗎?我們繼續看,接下來模型根據客戶持有的信用卡數量,將這些客戶分成兩個子類別(節點 4 和節點 5)。對於高收入客戶,如果我們只向那些信用卡少於 5 張的客戶貸款,則可以將我們的成功率從 89% 提高到 97%-- 很明顯是一個更滿意的結果。
圖 21. CHAID 模型塊 - 高收入客戶
回過頭來看看中等收入類別(節點 3)中的那些客戶是什麼情況呢?他們更加均勻地劃分為優良和不良評價。子類別(節點 6 和 7)這次仍然能幫助我們。如果只向那些信用卡少於 5 張的中等收入客戶貸款,可將優良評價的百分比從 58% 提高到 85%-- 顯著的改進。
圖 22. CHAID 模型塊 - 中等收入客戶
至此,我們瞭解到輸入此模型的每項記錄都將被分配到一個特定節點,並且根據該節點最常見的結果分配在優良或不良中二選一的預測值。
為各個客戶記錄分配預測值的過程稱為評分 (Scoring)。因為我們已經知道原始記錄中每個客戶的情況,通過對這些原始記錄進行評分並與實際值相比較,可以評估該模型的準確度。讓我們看看如何做到這一點。
評估模型
要評估模型的準確度,需要對一些記錄(這裡我們用原始記錄)進行評分,並將模型預測的結果與實際結果進行比較。
圖 23. 包含輸出的流 modelingintro.str
要檢視分數或預測值,請將表節點連線到模型塊,雙擊表節點,然後單擊執行。
可以從表中看到,模型建立了一個名為 $R-Credit rating 的欄位,用來顯示預測值。我們可以將這些值與原始信用評價欄位進行比較。
圖 24. CHAID 模型輸出表格
在 SPSS Modeler 中,在評分過程中生成的欄位的名稱基於目標欄位,再加上標準字首,例如 $R- 表示預測值,$RC- 表示置信度值。不同的模型型別使用不同的字首集。置信度值(confidence value)是模型自己做的評估,尺度從 0.0 到 1.0,表示每個預測值的精確程度。
與預期的一樣,預測值與大多數(並非全部)記錄的實際值相匹配。原因是每個 CHAID 終端節點均包含混合值,而預期值與大部分結果相匹配,對於該節點中的其他結果,該預期值是錯誤的。(還記得節點 2 中 16% 的少部分低收入客戶其實是沒有拖欠的嗎?)若要避免出現此情況,可繼續將樹分割為更小的分支,直到每個節點都不含混合值 (100%) 為止—即全部為優良或不良。但是,這樣的模型會非常複雜,並且不易推廣到其他資料集。
要檢視具體有多少預測值正確,我們可通讀表格,並數一數預測欄位 $R-Credit rating的值匹配信用評價的值的記錄數量。幸運的是,我們有更簡單的方式 -- 使用分析節點,它將幫助我們自動進行此項操作:將模型塊連線到分析節點,雙擊分析節點,然後單擊執行。
分析表明,2464 個記錄中有 1960 個記錄(約 80%)的模型預測值與實際值相匹配。
圖 25. CHAID 模型分析結果
注意我們用來評分的記錄和評估模型的記錄是同一批資料。在真實情況中,可使用分割槽(partition)節點將資料分割為兩個樣本分別用於培訓模型和評估模型。通過使用一個樣本生成模型並使用另一個樣本對模型進行檢驗,您可更有意義地評估將模型推廣到其他資料集的情況。
這一階段我們通過分析節點可以針對已知道其實際結果的記錄來檢驗模型。下一階段將介紹如何使用模型對我們不知道結果的記錄進行評分。例如,當前不是銀行客戶但是可做為促銷物件的人群。
對記錄評分
現在,我們要檢視如何對不同的記錄集進行評分。這是進行建模的目標:研究已知道結果的記錄,以找出模式可以讓您預測未知結果記錄的結果。
圖 26. 包含評分資料的流 modelingintro.str
我們可以更新 Statistics 檔案源節點使它指向其他資料檔案,也可以新增一個新的源節點,用它讀取要評分的資料。無論採用哪種方式,新資料集必須包含建模所使用的所有輸入欄位(年齡、收入水平、教育等),但不包含目標欄位信用評價。執行表節點即可得到結果,我們就不在這裡執行了。
另外,也可以將模型塊新增到包含輸入欄位的任何流中。無論資料來源是檔案還是資料庫,只要欄位名和型別與模型使用的相匹配,源型別都無關緊要。還可以將模型塊儲存為單獨的檔案、或將模型匯出為 PMML 格式以用於其他支援此格式的應用程式,或將模型儲存到 IBM SPSS Collaboration and Deployment Services 儲存庫中,這樣可以在企業範圍對模型進行部署、評分和管理。無論使用何種基礎結構,模型自身都按相同的方式工作。
摘要
本示例演示建立、評估模型以及對模型評分的基本步驟。
- 建模節點通過研究已知道結果的記錄來建立模型,並建立模型塊。也可稱為訓練模型。
- 可將模型塊新增到包含預期欄位的任何流中,以對記錄進行評分。通過對已知道結果的記錄(如現有客戶)進行評分,可以評估模型的執行情況。
- 如果您對模型的執行情況感到滿意,則可以對新資料(如準客戶)進行評分,以預測他們的響應。
- 用於訓練或評估模型的資料可以稱為分析資料或歷史資料(analytical or historical data);評分資料也可以稱為業務資料(operational data )。
自動建模
對客戶響應建模(自動分類器)
通過自動分類器(Auto Classifier node )節點,您可以為標誌欄位(例如某個客戶是否很可能拖欠貸款或者是否會對特定的報價做出響應)或名義(集合)欄位目標自動建立和比較多個不同模型。在本例中,我們將使用標誌(是或否)欄位。在一個相對簡單的流中,節點生成一組候選模型並對它們進行排序,選擇最有效的模型然後將它們合併為一個彙總(整體)模型。此方法將自動化操作的方便性與組合多個模型的優勢融為一體,通常能產生單一模型所不能帶來的更為準確的預測。
本示例以某虛構的公司為例,該公司希望通過為每個客戶提供最合適的報價以獲取更豐厚的收益。此方法突出了自動操作的優勢。我們使用安裝在 streams 目錄下 Demo 資料夾中的流 pm_binaryclassifier.str,所使用的資料檔案為 pm_customer_train1.sav。
圖 27. 流 pm_binaryclassifier.str
歷史資料
檔案 pm_customer_train1.sav的歷史資料包含過去的營銷活動中為特定客戶提供的報價,由 campaign欄位的值表示,其中值為 Premium account的記錄數最多。campaign 欄位的值在資料中實際編碼為整數(例如 2 = Premium account)。稍後,您可為這些值定義標籤以產生更有意義的輸出。
圖 28. 資料樣本
此外,其中還有欄位表示每位客戶的相關人口統計和財務資訊。這些欄位可用於構建或訓練一個模型,通過基於收入、年齡或每月交易次數等特徵來預測單個使用者或使用者群的響應概率。
構建流
新增使用 pm_customer_train1.sav的 Statistics 檔案源節點,該檔案位於 SPSS Modeler 安裝程式的 Demos 資料夾中。(您可以在檔案路徑中指定 $CLEO_DEMOS/ 作為引用此資料夾的快捷方式。請注意,路徑中必須使用正斜線而非反斜線,如圖所示。)
圖 29. 源節點
新增型別節點,然後選擇響應(response)作為目標欄位(設定其角色為目標)。將此欄位的測量設定為標誌。
對於以下欄位,將角色設定為無:customer_id、campaign、response_date、purchase、purchase_date、product_id、Rowid和 X_random。因為這些欄位(如使用者 ID)對於構建模型其實是無意義的,把角色設定為無以後,構建模型時將自動忽略這些欄位。
單擊型別節點的讀取值按鈕以確保值獲得例項化。
常見問題:當您在執行流的時候出現以下錯誤時,可以在型別節點中(流中沒有型別節點時請先手動新增一個)單擊讀取值然後再執行流:
- 為欄位 campaign 指定的型別不足
- 欄位 campaign 未知,或有未例項化的型別
我們的源資料包含四項不同活動的資訊,每個活動針對不同型別的客戶。這些活動在資料中編碼為整數,為了方便記住每個整數所代表的帳戶型別,讓我們為每個整數都定義一個標籤。
在活動(campaign)欄位的行上,單擊值列中的條目。從下拉列表選擇指定。
圖 30. 型別節點
在標籤列中,鍵入活動欄位四個值中每個值將顯示的標籤。單擊確定。
圖 31. 型別節點 - 指定標籤
現在我們可在輸出視窗中顯示標籤而非僅僅是整數了。
- 將表節點附加到型別節點。
- 開啟表節點,然後單擊執行。
- 在輸出視窗上,單擊顯示欄位和值標籤工具欄按鈕(左起第三個)以顯示標籤。
- 單擊確定關閉輸出視窗。
圖 32. 輸出標籤的表格
儘管資料包含有關四項不同活動的資訊,但每一次的分析應集中關注其中一項活動。由於 Premium account 活動(在資料中編碼為 campaign=2)中的記錄數最多,因此可以使用選擇節點實現僅在流中包含這些記錄。
圖 33. 選擇節點
生成和比較模型
附加一個自動分類器節點,然後選擇總體精確性作為對模型進行排序的度量。
將要使用的模型數設定為 3。這意味著在執行節點時將只選擇三個最佳模型。
圖 34. 自動分類器節點 - 模型頁
在專家選項卡上,可從最多 11 種不同模型演算法中進行選擇。
取消選擇判別式和 SVM模型型別。(這些模型需要花費更多時間培訓這些資料,因此取消選中它們將可以加快示例的執行速度。如果您不介意稍等一下,也可以保留它們的選中狀態。)由於在模型選項卡上將要使用的模型數設定為 3,因此節點將計算所選擇九個演算法的準確性,然後選擇三個最準確的演算法來構建一個模型塊。
圖 35. 自動分類器節點 - 專家頁
在設定選項卡上,選擇整體方法為置信度加權投票。此選項將確定如何為每條記錄生成一個評分。
使用簡單投票方式時,若三個模型中有兩個模型均預測是,則是將以 2 比 1 的投票結果取勝。在使用置信度加權投票方式時,將基於各預測的置信度值進行加權投票。因此,如果一個預測否的模型的置信度比兩個預測是的模型合在一起的置信度還高的話,則否取勝。
圖 36. 自動分類器節點 - 設定頁
單擊執行。
幾分鐘後(實際情況中,由於大型資料集往往需要建立數百個模型,這可能會花費數小時或更長的時間),構建生成的模型塊將放到工作區和視窗右上角的模型選項板中。您可瀏覽模型塊,或以多種其他方式將其儲存或部署。
我們從工作區開啟模型塊,它將列出在執行期間所建立的每個模型的詳細資訊。如果需要進一步探索任何單獨的模型,可在模型列中雙擊此模型塊圖示,以瀏覽單獨模型結果,甚至可以用它們生成建模節點、模型塊或評估圖表。在圖形列中,可以雙擊縮圖生成標準大小的圖形進行直觀的顯示。
圖 37. 自動分類器模型塊 - 模型頁
預設情況下,模型會基於總體精確性排序,這是我們在自動分類器節點模型選項卡中選擇的度量。根據這一度量,C51 模型的精確性最高,但 C&R 樹和 CHAID 模型的精確性與之相差不大。您可以通過單擊其他列的標題對該列進行排序,或者也可以從工具欄的排序方式下拉列表中選擇所需的度量。
基於這些結果,我們決定使用所有三個最準確的模型。通過結合多個模型的預測,可以避免單個模型的侷限性,從而使整體準確性更高。在是否使用列中,選擇 C51, C&R 樹和 CHAID 模型。
在模型塊後附加一個分析節點(位於下方輸出選項板)。右鍵單擊分析節點,然後選擇執行以執行流。
由整體模型生成的彙總得分將顯示在名為 $XF-response 的欄位中。當根據訓練資料評分時,預測值與實際響應(如原始響應欄位中的記錄所示)匹配的總體精確性為 92.82%。儘管這不如本例中三個模型的最高精確性高(C51 為 92.86%),但它們之間的差距小得可以忽略不計。一般來說,整體模型應用到訓練資料之外的資料集時,通常比單個模型效果更好。
圖 38. 自動分類器模型塊的分析結果
摘要
綜上所述,我們使用自動分類器節點比較了多種不同的模型,然後使用三個最準確的模型並將它們作為一個整體自動分類器模型塊新增到流中。
- 基於總體精確性,‘C51’、‘C&R 樹’和 CHAID 模型對於訓練資料效果最佳。
- 整體模型與最好的單個模型相比效果相差不大,而且當應用到其他資料集時可以起到更好的效果。如果您的目標是自動執行這一過程,您可以通過此方法獲得在大多數情況下都很穩健的模型,而無需深入挖掘單個模型的細節。換句話說假設您不是對每個模型都很熟悉,那麼可以嘗一下自動建模,它將會自動為您提供專業的選擇。
- 除了自動分類器節點(預測標誌或名義欄位),SPSS Modeler 還提供了自動數值節點(預測數值目標)和自動聚類節點(生成聚類模型),共三個自動節點。
小結
本文從 IBM SPSS Modeler 基本概念開始詳細介紹其基本操作,通過典型的資料探勘演算法介紹使用 SPSS Modeler 進行資料探勘的基本流程,以及 SPSS Modeler 強大的自動建模功能。
本文所展示的只是 SPSS Modeler 很基礎的一小部分使用。隨著使用者使用的加深,將會了解到 SPSS Modeler 更為強大的功能,如 ADP(自動資料準備)、資料庫建模等等。