1. 程式人生 > >機器學習儲備(1):協方差和相關係數

機器學習儲備(1):協方差和相關係數

為了深刻理解機器學習演算法的原理,首先得掌握其中涉及到的一些基本概念和理論,比如概率,期望,標準差,方差。在這些基本概念上,又衍生出了很多重要概念,比如協方差,相關係數等。今天我們就來聊聊這些組成機器學習的基本概念。

1、概率

概率 P 是對隨機事件發生的可能性的度量。

例如,小明在期末考試前,統計了下自己在今年的數學考試成績,結果顯示得到80分以下的次數為2次,得80分~90分的次數為10次,得到90分以上次數為3次,那麼小明得到 80分以下的概率為:

P( < 80 ) = 2/(2+10+3) = 13.3%

80~90分的概率為:

P( 80 ~ 90) = 10/(2+10+3) = 66.7%

90分以上的概率:

P( > 90) = 3/(2+10+3) = 20%

2、期望值

期望值  E,在一個離散性隨機變數實驗中,重複很多次實驗,每次實驗的結果乘以其出現的概率的總和。

如上例中,小明在今年的期末考試,我們對他的期望值大約是多少呢?套用上面的公式,80分以下的值取一個代表性的分數:70分,80~90:85分,90分以上:95分,

E =  70 * 0.133 + 85 * 0.667 + 95 * 0.2

計算出的結果為 85,即期末考試我們對小明的合理期望是 85 分左右。

3、方差

方差 ,用來度量隨機變數取值和其期望值之間的偏離程度。

其中:

X 表示小明的分數這個隨機變數

N 表示樣本的個數,即在此15個

已經知道小明的15次考試的分數,均值剛才我們也計算出來了為 85分,帶入到上面的公式中,便能得出偏離85分的程度大小。

如果方差很大,那麼小明在期末考試的分數可能偏離85分的可能性就越大;如果方差很小,那麼小明很可能期末考試分數在85分左右。

方差開根號,得到標準差,即為

4、協方差

以上幾個概念理解了後,下面再闡述什麼是協方差,字面上看它比方差多一個協字,那麼大體也能猜出,它可能是衡量兩個隨機變數間是不是存在某種關係的。

那麼它的實際定義如下:

其中,

X, Y 是兩個隨機變數

 是對應兩個隨機變數的均值

如果兩個變數是高度同向的,即X變大,Y也變大,那麼對應的協方差也就很大;如果每次X變大,Y就變小,那麼X和Y的協方差可能就會為負數

例如,經過觀察,我們發現小明的數學成績和物理成績的分數分佈情況高度相符,也是70分以下3次,80~90分居多,21次,90分以上1次,那麼我們就說小明的數學和物理成績的協方差很大。

5、相關係數

我們考慮具有一般性的公式,通常相關係數的定義如下:

發現這個相關係數與協方差緊密相關,只不過又除以了X的標準差和Y的標準差,也就是說,是一種剔除了X和Y這兩個偏離程度量綱的影響,標準化後的特殊協方差。

同樣可以拿協方差來理解相關係數,若相關係數很大,則可以得到X變大,Y也很可能會變大的結論。

6、總結

我們闡述了幾個重要的概念,最後理解了相關係數,理解它為我們之後理解資料預處理的很多演算法,及迴歸分析都很有幫助,如普通最小二乘法 (OLS)為什麼在相關係數大的迴歸分析上變得誤差很大。

以上這些概念算是一個作為之後學習的儲備吧。謝謝您的閱讀!