《R語言實戰——機器學習與資料分析》
阿新 • • 發佈:2019-01-05
概率統計基礎知識要點:
樣本空間:由隨機試驗E的全部可能結果所組成的集合被稱為E的樣本空間S。
隨機變數Random Variable:是定義在樣本空間S之上的實驗結果的實值函式X。
離散型隨機變數:如果一個隨機變數最多有可數多個可能取值。
連續型隨機變數:如果隨機變數取值是無限不可數的。
累積分佈函式 Cumulative Distribution Function
概率質量函式 Probability Mass Function,對離散型隨機變數定義
概率密度函式Probability Density Function,對連續型隨機變數定義
期望Expectation:X的期望就是X所有可能取值的一個加權平均,每個值的權重就是X取該值的概率。
方差Variance:刻畫隨機變數相對於期望值的散佈程度的一個度量。
離散概率分佈:
伯努利分佈Bernoulli(兩點分佈)
二項分佈Binomial Distribution:重複進行n次獨立的伯努利實驗
負二項分佈(帕斯卡分佈)
幾何分佈:負二項分佈的特例
泊松分佈Poisson:可以看成二項分佈的特例
連續概率分佈:
指數分佈:泊松過程的等待時間服從指數分佈
正態分佈Gaussian
大數定理:布豐投針實驗,樣本數量越多,其平均越趨近於期望值,一些隨機事件的均值具有長期穩定性
馬爾可夫不等式、切比雪夫不等式:在只知道隨機變數的期望或期望和方差都知道的情況下,可以匯出概率的上界
弱大數定理(辛欽大數定理)
強大數定理
中央極限定理:若有獨立同分布的隨機變數序列,不論其分佈如何,只要n足夠大,則隨機變數之和服從正態分佈,期望和方差是他們的公共期望和方差的n倍