機器學習儲備(1):協方差和相關係數
為了深刻理解機器學習演算法的原理,首先得掌握其中涉及到的一些基本概念和理論,比如概率,期望,標準差,方差。在這些基本概念上,又衍生出了很多重要概念,比如協方差,相關係數等。今天我們就來聊聊這些組成機器學習的基本概念。
1、概率
概率 P 是對隨機事件發生的可能性的度量。
例如,小明在期末考試前,統計了下自己在今年的數學考試成績,結果顯示得到80分以下的次數為2次,得80分~90分的次數為10次,得到90分以上次數為3次,那麼小明得到 80分以下的概率為:
P( < 80 ) = 2/(2+10+3) = 13.3%
80~90分的概率為:
P( 80 ~ 90) = 10/(2+10+3) = 66.7%
90分以上的概率:
P( > 90) = 3/(2+10+3) = 20%
2、期望值
期望值 E,在一個離散性隨機變數實驗中,重複很多次實驗,每次實驗的結果乘以其出現的概率的總和。
如上例中,小明在今年的期末考試,我們對他的期望值大約是多少呢?套用上面的公式,80分以下的值取一個代表性的分數:70分,80~90:85分,90分以上:95分,
E = 70 * 0.133 + 85 * 0.667 + 95 * 0.2
計算出的結果為 85,即期末考試我們對小明的合理期望是 85 分左右。
3、方差
方差 ,用來度量隨機變數取值和其期望值之間的偏離程度。
其中:
X 表示小明的分數這個隨機變數
N 表示樣本的個數,即在此15個
已經知道小明的15次考試的分數,均值剛才我們也計算出來了為 85分,帶入到上面的公式中,便能得出偏離85分的程度大小。
如果方差很大,那麼小明在期末考試的分數可能偏離85分的可能性就越大;如果方差很小,那麼小明很可能期末考試分數在85分左右。
方差開根號,得到標準差,即為。
4、協方差
以上幾個概念理解了後,下面再闡述什麼是協方差,字面上看它比方差多一個協字,那麼大體也能猜出,它可能是衡量兩個隨機變數間是不是存在某種關係的。
那麼它的實際定義如下:
其中,
X, Y 是兩個隨機變數
是對應兩個隨機變數的均值
如果兩個變數是高度同向的,即X變大,Y也變大,那麼對應的協方差也就很大;如果每次X變大,Y就變小,那麼X和Y的協方差可能就會為負數
例如,經過觀察,我們發現小明的數學成績和物理成績的分數分佈情況高度相符,也是70分以下3次,80~90分居多,21次,90分以上1次,那麼我們就說小明的數學和物理成績的協方差很大。
5、相關係數
我們考慮具有一般性的公式,通常相關係數的定義如下:
發現這個相關係數與協方差緊密相關,只不過又除以了X的標準差和Y的標準差,也就是說,是一種剔除了X和Y這兩個偏離程度量綱的影響,標準化後的特殊協方差。
同樣可以拿協方差來理解相關係數,若相關係數很大,則可以得到X變大,Y也很可能會變大的結論。
6、總結
我們闡述了幾個重要的概念,最後理解了相關係數,理解它為我們之後理解資料預處理的很多演算法,及迴歸分析都很有幫助,如普通最小二乘法 (OLS)為什麼在相關係數大的迴歸分析上變得誤差很大。
以上這些概念算是一個作為之後學習的儲備吧。謝謝您的閱讀!