1. 程式人生 > >演算法--偏差,方差,標準差,協方差,相關係數及相關理解

演算法--偏差,方差,標準差,協方差,相關係數及相關理解

1 偏差與方差

  • 偏差(bias):描述的是預測值(估計值)的期望與真實值之間的差距。偏差越大,越偏離真實資料,如下圖第二行所示。
  • 方差(variance):描述的是預測值的變化範圍,離散程度,也就是離其期望值的距離。方差越大,資料的分佈越分散,如下圖右列所示。
    這裡寫圖片描述
  • 方差公式
    這裡寫圖片描述
    Var(x)
    =E((x−E(x))2)
    =E(x2−2xE(x)+(E(x))2)
    =E(x2)−2E(x)E(x)+(E(x))2
    =E(x2)−2(E(x))2+(E(x))2
    =E(x2)−(E(x))2
    其實兩個公式是等價的
  • 樣本方差公式:
    這裡寫圖片描述
    式中:這裡寫圖片描述是樣本的均值

  • 標準差(就是方差的平方根)
    標準差公式:
    這裡寫圖片描述


    樣本標準差公式:
    這裡寫圖片描述
    為什麼使用標準差?
    與方差相比,使用標準差來表示資料點的離散程度有3個好處:

    • 表示離散程度的數字與樣本資料點的數量級一致,更適合對資料樣本形成感性認知。依然以上述10個點的CPU使用率資料為例,其方差約為41,而標準差則為6.4;兩者相比較,標準差更適合人理解。
    • 表示離散程度的數字單位與樣本資料的單位一致,更方便做後續的分析運算。
    • 在樣本資料大致符合正態分佈的情況下,標準差具有方便估算的特性:66.7%的資料點落在平均值前後1個標準差的範圍內、95%的資料點落在平均值前後2個標準差的範圍內,而99%的資料點將會落在平均值前後3個標準差的範圍內。

2 協方差和相關係數

  • 2 協方差covariance

    • 定義

    • 兩個隨機變數的協方差被定義為:
      這裡寫圖片描述
      Cov(x,y)=E( (x−E(x)) (y−E(y)) )
      Cov(x,y)=E( (x−E(x)) (y−E(y)) )
      因此方差是一種特殊的協方差。當x=y時:Cov(x,y)=Var(x)=Var(y)。

    • 直觀理解
      協方差表示的是兩個變數總體誤差的方差,這與只表示一個變數誤差的方差不同。  如果兩個變數的變化趨勢一致,也就是說如果其中一個大於自身的期望值,另外一個也大於自身的期望值,那麼兩個變數之間的協方差就是正值。 如果兩個變數的變化趨勢相反,即其中一個大於自身的期望值,另外一個卻小於自身的期望值,那麼兩個變數之間的協方差就是負值
    • 協方差矩陣(必定是一個方陣)
      covariance matrix
  • 2 相關係數

    • 相關係數通過方差和協方差定義。兩個隨機變數的相關係數被定義為:
      這裡寫圖片描述
      這裡寫圖片描述
    • 性質

      • 1、有界性
        相關係數的取值範圍為-1到1,其可以看成是無量綱的協方差。
      • 2、統計意義
        值越接近1,說明兩個變數正相關性(線性)越強,越接近-1,說明負相關性越強,當為0時表示兩個變數沒有相關性。

3 PCA主元分析法

4 DataFrame實現