1. 程式人生 > 其它 >機器學習sklearn(十六): 特徵工程(七)特徵選擇(二)卡方選擇(一)卡方檢驗

機器學習sklearn(十六): 特徵工程(七)特徵選擇(二)卡方選擇(一)卡方檢驗

卡方檢驗,統計學的方法,現在機器學習看變數的時候也會用到。

很多不知道的人,一聽到這個名詞,會馬上聯想到,
啊?還要拿張卡來檢驗嗎?

其實卡方檢驗是英文Chi-Square Test 的諧音。在大資料運營場景中,通常用在某個變數(或特徵)值是不是和應變數有顯著關係。

我常聽到運營和分析師這樣的對話,
分析師:“這個變數我做了卡方檢驗了,不顯著,所以我沒有放進模型。”
這時候,你要是仔細觀察運營經理的話,他們很多人其實是不明白的,有些好學的會直接問什麼是卡方檢驗,有些要面子,會偷偷百度一下什麼是卡方檢驗,但多數運營經理就這麼接受了分析師的建議。
畢竟運營經理是以業務和結果為導向的,這些細節的東西,他們覺得也不用自己去糾結。

我寫這篇的目的,是為了讓運營經理能夠確實的知道卡方檢驗是什麼,不要害怕聽到這些專有名詞,下次遇到這些情況知道如何和分析師互動,並且從業務層面上提出更有價值的變數建議。

而分析師的話,能夠讓他們在和其他非技術部門人員溝通的時候,學習怎麼說些普通人能聽的懂的話。

01 什麼是卡方檢驗:

卡方檢驗就是檢驗兩個變數之間有沒有關係。
以運營為例:

  • 卡方檢驗可以檢驗男性或者女性對線上買生鮮食品有沒有區別;
  • 不同城市級別的消費者對買SUV車有沒有什麼區別;

如果有顯著區別的話,我們會考慮把這些變數放到模型或者分析裡去。

02 投硬幣

那我們先從一個最簡單的例子說起。
1) 根據投硬幣觀察到的正面,反面次數,判斷這個硬幣是均衡的還是不均衡。
現在有一個正常的硬幣,我給你投50次,你覺得會出現幾個正面,幾個反面?

按照你的經驗你會這麼思考,最好的情況肯定是25個正面,25個反面


但是肯定不可能這麼正正好好的,嗯,差不多28個正面,22個反面吧;
23個正面,27個反面也可能的,
但是10個正面,40個反面肯定不可能的,除非我運氣真的那麼碰巧。

你上面的這個思維方式,就是拿已經知道的結果(硬幣是均衡的,沒有人做過手腳),推測出會出現的不同現象的次數。

而卡方檢驗是拿觀察到的現象(投正面或反面的次數或者頻數),來判斷這個結果(硬幣是不是均衡的)。

繼續上面這個例子,
如果我不知道這個硬幣是不是均衡的,我想用正面,反面的頻次來判斷,我投了50次,
其中28個正面,22個反面。我怎麼用卡方檢驗來證明這個硬幣是均衡的還是不均衡的呢?

這裡要引出卡方檢驗的公式:

這個公式可以幫我們求出卡方檢驗的值,我們用

其中,自由度我們可以求出來,置信度的話,我們按照我們自己意願挑選,一般我們會挑90%或者95%。

這三個數值計算方法如下:

我們拿到這3個資訊,去查表,因為0.72小於查表得到的3.841,所以我們得出這個硬幣是均衡的結論。

這裡還涉及到假設檢驗中,拒絕H0還是不拒接H0,這篇文章就不詳細展開了。

如果你們查表後,還是不知道是該大於的時候說均衡,還是小於的時候說均衡,那麼你們可以想一下具體這個例子,
如果硬幣是均衡的話,你覺得卡方的值是越小越可能是均衡的,還是越大越可能是均衡的呢?

03 投篩子

接下來,我們再來看一個稍微難一點的例子,投骰子。
有一個篩子,我不知道它是不是均衡的,於是我打算投36次看一下。

按照投硬幣的方式,我先要畫出一個表格,然後計算出3個數值,

帶著這3個值,我們去查表,於是我們得出這個現象不能判定他是個均衡的篩子。

現在你明白其實卡方檢驗一點都不深奧吧。

以後如果分析師說,這個變數不顯著,我把這個變數去掉了,
你就可以反問他,那卡方值是多少?
你選了多大的置信度?

04 電商中消費者的性別和購買生鮮

最後講個平時運營分析中的案例:

我們要觀察性別和在線上買不買生鮮食品有沒有關係,現實生活中,女性通常去菜市場買菜的比較多,那麼在線上是不是也這樣。

我們得出觀察到資料,並且形成表格後,我們需要計算理論的資料,在上面的例子我們發現,我們發現有66%的人不在線上買生鮮(599除以907),34%的人會在線上買。 那如果,男的有733個人,女的有174個人,根據這些比例,我們可以得出的理論值是什麼呢?

根據理論和實際值,我們可以算出卡方值,自由度,並且結合我們定義的置信度,查表得到性別和線上買生鮮是顯著相關的。
所以我們如果下次看到一個女性來訪問我們的網站,多投放一些廣告,說不定會轉化哦。

看了這幾個例子,是不是覺得卡方檢驗一點都不復雜,其實和我們生活這麼貼近,我們平時的思維方式,其實就隱含著卡方檢驗的道理。



作者:Yan文怡
連結:https://www.jianshu.com/p/807b2c2bfd9b
來源:簡書
著作權歸作者所有。商業轉載請聯絡作者獲得授權,非商業轉載請註明出處。