信用風險評分卡研究-第4章筆記
本章將繼續探討信用風險評分中使用的EDA過程,並重點介紹對候選自變量預測力的判斷。首先,要明確區分相關性和關聯性指標之間的細微差別。在統計學上,術語相關性是用來表示兩個變量取值之間線性關系的一系列特定指標。被考察的變量可以是連續變量或順序變量。其他所有形式的非線性關系都通過所謂的關聯性指標進行稱量。
通常,需要稱量變量間的相關性和關聯性的原因有以下幾條:
1、將在模型中被用作預測指標的變量相互之間不能具有很強的相關性,或者最好是完全不存在相關性。其原因就在於LOGISTIC回歸限制,它不允許自變量之間是線性相關的。
2、如果某些變量相互之間具有很強的相關性或關聯性,簡而言之,這意味著它們包含相同的信息內容。因子分析(Factor Analysis,FA)和主成分分析(Principal Component analysis,PCA)是嘗試找出決定數據方差的最少自變量的統計技術。假設這些要素是原始變量的組合。如果這些變量間具有很強的相關性,FA和PCA可以顯著減少變量的數量。
3、大多數信貸發放機構都會擁有豐富的客戶數據,這些數據以客戶擁有的其他產品交易記錄以及人口統計數據的形式存在。根據對正常/違約信用狀態的預測力,從這些眾多的變量中選擇一個最優子集。通常,選擇哪些與違約狀態變量(因變量)之間表現出很強關聯性的變量。
因此,通過判斷因變量和候選自變量之間的相關性或關聯性水平可以過濾掉預測力較低的變量。
本章剩余部分將討論這些衡量指標和它們的SAS實現過程。在本章最後,將討論如何用些衡量指標自動實現變量選擇過程。
X2:皮爾森卡方統計量
P:皮爾森相關系數
pn:斯皮爾曼相關系統
G:基尼方差
0:概率比
G:似然比檢驗統計量
E:熵方差
IV:信息值
符號
不同的相關性和關聯性指標的定義需要使用大量的符號。根據變量類型,可以將這些符號簡化為三組。如表4.2所示,在任何情況下都按照兩個變量,X和Y,來定義衡量指標。假設兩個變量都是自變量,或者其中一個是因變量,此時因變量是變量Y。上述三種情況分別是:
1、X和Y都連續變量
2、Y是連續變量,X是名義變量或順序變量
3、X和Y都是名義變量或順序變量
1、兩個連續變量
這種情況的符號最簡單。總計有N個觀測值,其中變量X和Y的取值( x1,y1),(x2,y2),...,(xn,yn);在第4.3和4.4節中,將用這些符號分別定義皮爾森相關系數和斯皮爾曼相關系數;
這種情況下,符號是基於列聯表或頻率表。表4.3是兩個名義變量x和y的一個雙向頻率表。變量x的類別表示為表中的行,而變量y的類別表示為表中的列。
對於兩個名義變量的情況,PROC FREQ 是SAS中生成雙向頻率表的最有效的程序。實際上,對於所有類型的變量,PROC FREQ都可以生成這種頻數表。但只有在所有變量的分類數都較小的情況,其結果才具有實踐意義。
3、名義變量x和連續變量y。
皮爾森相關系數
皮爾森相關系數的取值總是在-1.0到1.0之間。皮爾森相關系數值接近0的變量被稱為無相關性。皮爾相關系數值接近於-1或1的變量被稱強相關。
皮爾森相關系數衡量的是線性相關性的程度。皮爾森相關系數的一個幾何解釋是其代表兩個變量的取值根據均值集中後構成的向量之間夾角的余弦。
PROC CORR 可以計算多個相關系數。皮爾森相關系數是PROC CORR語句中默認的指標。
可以很容易算出皮爾森相關系數,但並不推薦這樣做。皮爾森相關系數使用的是每個觀測值與平均值之間的距離(由方差歸一)。由於原則上無法準確定義順序變量各類別之間的距離,導致計算出來的相關系數不是變量間的關聯性的真實表示。因此,建議對順序變量使用斯皮爾曼相關系數。
為了避免上面提到的由於數據錯誤和極端值導致的皮爾森相關系數的不穩定性問題,計算斯皮爾曼相關系數使用的不是取值,而是等級。
斯皮爾曼相關系數
斯皮爾曼相關系數采用的是取值的等級,而不是取值本身。當取值按照升序排序時,取值的等級就是該取值的順序。
相對於皮爾森相關系數,斯皮爾曼相關系數對於數據錯誤和極端值的反應不敏感。
皮爾森卡方統計量
用於衡量兩個名義(類別)變量之間的關聯性,其來自列聯表中的頻率數。PROC FREQ可以生成兩個類別變量列聯表中的頻數率。PROC FREQ 可以在TABLES語句中用選項CHISQ計算皮爾森卡方統計量。
似然比檢驗統計量
似然比檢驗統計量,用G表示,是基於最大似然估計原理(MLE)。MLE的工作原理是定義一個似然函數,賦予其所需求的解的特征。本例關註的是找出能夠獲得一個名義變量的類別的一定頻率的概率。
G服從自由度為(r-1)的漸進卡方分布。這意味著,通過找出自由度為(r-1)的卡方概率密度為分布下區域的面積,可以檢驗樣本中頻率分布在一定的顯著水平下是否與總體存在差異。
本章後續部分以及第12章中,將用公式4.21定義的其它統計量。
概率比
如果兩個變量都只分為兩類,即二元的,就是列聯表的一個特殊情況。其符號將減少。
概率比獨立於列聯表中事件的順序(列)或類別(行)
如果概率比取值為1.0,或從任何方向上遠近於1.0時,可以推斷出變量X的分類相對於變量Y的分類的頻率分布不存在差異。換句話說,就是兩個變量之間不存在關聯性。
一方面,在選擇納入模型的候選自變量的過程中,要選擇與違約狀態指標具有較強的關聯性的變量。另一方面,如果變量x和y都是獨立變量,可以推導出它們是相互獨立的。
PROC FREQ 可以用選項MEASURES計算概率比的置信區間。
通常,可以概率比的置信區間檢查它們是否都位於單位1的同一側。如果不是,說明不能用概率雲證明變量x和y之間是否存在關聯性。例如,如果在95%的置信區間裏概率比是(1.05,0.93),則無法推斷變量間是否存在關聯性。
大多數據情況下,概率比的結果還能夠得到皮爾森卡方統計量和似然比檢驗統計量相似結論的支持。
概率比在LOGISTIC回歸模型中起著關鍵的作用,而LOGISTIC回歸模型是創建評分卡的主要建模工具。
F檢驗
之前,本章已經介紹了幾個判斷類型變量,即連續變量和連續變量之間或名義變量和名義變量之間,相關性和關聯性的指標.接下來,將介紹幾個對不同類型變量之間相關性和關聯性進行衡量的指標.
F檢驗衡量的是一個連續變量和一個名義變量之間的關聯性.
其中,誰是因變量並不重要。該檢驗對兩種情況都有效。
如果X是二元變量,並用1和0表示,F值及其相關聯的p值可以用線性回歸模型進行計算,模型中y作為因變量,x作為唯一的自變量。用線性回歸計算出來的F值可以用其p值進行解釋,p值是可以建立模型的概率,即變量x和y之間無關聯性概率。
基尼方差
基尼方差被定義為衡量三種情況下變量之間關聯性的指標:
1、一個連續變量和一個名義變量或順序變量
2、兩個名義變量
3、兩個順序變量
如果X是二元變量,基尼方差將簡化為判別系數R2,可以用來判斷線性回歸模型的質量。這種情況下,線性回歸模型用變量Y作為因變量,而變量X將是唯一的自變量。
宏%CalGrF可以計算基尼方差和F及其p值。這些值將作為M_參數返回,因而在調用宏之前要初始化為空的字符串。
盡管F檢驗和基尼方差可以用線性回歸生成,但明確建議用實驗室,如%CalGrF,進行計算,原因如下:
1、線性回歸要求將名義變量的類別映射為數值型虛擬變量。
這是一個額外的數據準備階段,在數據描述階段和選擇最重要的預測變量階段都不需要進行。
2、只有在名義變量X是二元變量的情況下,線性回歸才可以計算這些值。
3、PROC REG 生成的F及其P值並不是一種簡單易用的形式。這些值只是打印在輸出窗口,但並沒有存儲在外部數據集或宏變量中。這使得難以在變量選擇的自動化進程中使用該結果,而這又是數據描述和變量選擇的最終目的。
宏%GNomNom可以計算兩個具有字符值 的名義變量的基尼方差。
例4.12表明,當將變量x和y帶入公式4.35中,基尼指數是非對稱的。這意味著變換這兩個變量在公式中的角色將導致不同的結果。因為x和y都是名義變量,這個結果可以預見的。
熵方差
首先,考慮一個類別變量x和一個連續變量y的情況。
由於這個情況,對於一個名義變量x和一個連續變量y的情況,不需要特別的宏來計算熵方差。用宏%ENomNom來計算熵方差
在變量x和變量y中熵方差是非對稱的。
信息值IV,是衡量兩個名義變量,其中一個二元變量,之間關聯性的指標。
變量中y各列中的信息是對稱的,即,將公式中的相互替換,得到的IV相同。然而,不能將變量x和變量y互換,因為IV的定義只針對二元變量y。即使x也是二元變量,信息值對於x和y也是非對稱的。
信息值和似然比檢驗統計量之間關系密切。回顧任意樣本中類別的分布和已知分布的似然比統計量的定義為:
可以用卡方分布為信息值的取值和類別數r指定一個顯著水平。
在上述基礎上,當前的信用評分卡開發實踐中,提供了用信息值決定候選自變量的預測力的一般準則。
用IV解釋預測力:
<0.02 無預測力
0.02<=IV<0.10 弱
0.10<=IV<0.30 中等
0.30<=IV 強
信息值的定義僅僅針對二元變量y和一個名義變量x。因此,將其應用於一個順序變量x時,順序關系將被忽略,且該變量被當作一個名義變量對待。如果X是連續變量,該變量被分段,且這些分段將被當作一個名義變量的無序的類別對待。
宏%InfoValue 的參數。對於包含字符值的名義變量x和取值為1和0的二元因變量,該參數用於計算其信息值。
變量選擇的自動化
本章已經介紹了幾個衡量變量間關聯性和相關性的統計量。這些衡量指標或者用於判斷候選自變量的預測力,或者用於評估自變量之間的關聯性,以去掉那些被 證明無法給模型帶來額外價值的變量。在上述任何一項工作任務中,都需要一個自動計算不同衡量指標的程序。本節將介紹實施這種自動變量選擇程序的SAS宏。
關註的重點是判斷候選自變量的預測力的情況。首先有一個因變量,違約狀態指標,以及一系列候選自變量。假設所有自變量是同一種類型,即全部都是名義變量、順序變量或連續變量,沒有多種類型變量混雜的情況。宏%PowerGini,其參數見表,用於基尼方差計算一系列變量的預測力,其生成的值存儲在一個數據集中。
這是實際檢查宏實施內部運作的幾種情況之一。下面將運行宏%Ginipower,因為計算不同衡量指標的其他宏實施都遵循同樣的步驟。
基本上,宏可以被定義分成以下三個部分:
1、將變量名稱的清單,IVList,分解成單個的標識並將其存儲為宏變量。
2、用宏%GNomBin對這些變量進行循環操作,計算基尼方差的值。通過一個使用PROC SQL 的INSERT語句將計算的每個基尼方差存儲在數據集中。
3、宏將基尼方差按照降序排列,以方便找出最具預測力的變量。
需要註意的是,對於每一個標記過的變量名稱,通過計算基尼方差可以將前兩個步驟合並為一步實施。然而,為了使實施過程更清楚,可以將其分為兩個步驟。
計算關聯性指標而不是基尼方法,如熵方差或信息值,只需要通過調用適當的宏對第二個步驟進行調整。列Measure Macro表示用於計算變量選擇過程中使用的適當指標的宏的名稱。
所有這些宏設計的工作對象都是一個二元因變量,即信用風險評分的情況。調用這些宏的參數遵循4.19的總體方案。
比較概率比的值不同於所有其他衡量指標。在其他衡量指標的情況下,衡量指標的值越大,兩個變量間的關聯性越強。而相反,在概率比的情況,更令人感興趣的是偏離單位值的概率比,而不是簡單的最高值。因而,宏%PowerOlds可以計算一個額外的數值,標準化的概率比,使得到的所有概率比都大於1.這樣可以通過僅計算小於1的概率值的逆,使得用於提取預測力最強的變量的宏只要使用最大值。因此,定義標準化的概率比如下。
現在,介紹一個宏,讀取表4.20中介紹的宏生成的數據集,並從中提取預測力最強的變量。通常,通過指定預期的預測力最強的變量數,或衡量指標最小允許值,實現上述目標。
例如:首先,有40個候選自變量。其次用宏%PowerIV計算排序為人信息值。最後,決定僅保留信息值超過一定量,如0.02,的所有變量。這個選擇過程可以用宏%ExtrctTop實現。
本例介紹如何用宏%ExtrctTop從數據中提取預測力最強的變量。首先生成一個數據集,其中的變量是從信用卡申請中獲取的。列表4.18中代碼概括了生成這個數據集的兩個主要步驟。
通過調用宏%PowerIV,可以計算數據集中所有變量的信息值。
現在,實驗兩種變量選擇的方法。首先,通過設定的Method=1調用宏%ExtrcTop,選擇預測力最強的前三個變量,詳見列表4.20.
其次,前三個預測變量將在SAS的日誌窗口中輸出,本例中,這些變量將是Gender,ResType和AppChannel。
最後,通過設定Method=2並給定參數值Cutoff=0.015,可以選擇信息值超過0.015的預測力較強的變量。
代碼4.21的結果是僅選擇兩個變量,Gender和ResType,因為這是滿足臨界條件的僅有的兩個變量。
信用風險評分卡研究-第4章筆記