1. 程式人生 > >《R語言實戰——機器學習與資料分析》

《R語言實戰——機器學習與資料分析》

概率統計基礎知識要點:

樣本空間:由隨機試驗E的全部可能結果所組成的集合被稱為E的樣本空間S。

隨機變數Random Variable:是定義在樣本空間S之上的實驗結果的實值函式X。

離散型隨機變數:如果一個隨機變數最多有可數多個可能取值。

連續型隨機變數:如果隨機變數取值是無限不可數的。

累積分佈函式 Cumulative Distribution Function

概率質量函式 Probability Mass Function,對離散型隨機變數定義

概率密度函式Probability Density Function,對連續型隨機變數定義

期望Expectation:X的期望就是X所有可能取值的一個加權平均,每個值的權重就是X取該值的概率。

方差Variance:刻畫隨機變數相對於期望值的散佈程度的一個度量。

離散概率分佈:

伯努利分佈Bernoulli(兩點分佈)

二項分佈Binomial Distribution:重複進行n次獨立的伯努利實驗

負二項分佈(帕斯卡分佈)

幾何分佈:負二項分佈的特例

泊松分佈Poisson:可以看成二項分佈的特例

連續概率分佈:

指數分佈:泊松過程的等待時間服從指數分佈

正態分佈Gaussian

大數定理:布豐投針實驗,樣本數量越多,其平均越趨近於期望值,一些隨機事件的均值具有長期穩定性

馬爾可夫不等式、切比雪夫不等式:在只知道隨機變數的期望或期望和方差都知道的情況下,可以匯出概率的上界

弱大數定理(辛欽大數定理)

強大數定理

中央極限定理:若有獨立同分布的隨機變數序列,不論其分佈如何,只要n足夠大,則隨機變數之和服從正態分佈,期望和方差是他們的公共期望和方差的n倍