機器學習基礎——概率論

阿新 • • 發佈：2021-12-23

機器學習概率論相關應用部分，從大學課本中走出面向機器學習中概率的要求

1. 概率的基本要素

為了定義集合上的概率，我們需要一些基本元素，

樣本空間$\Omega $：隨機實驗的所有結果的集合。在這裡，每個結果 $w \in \Omega $ 可以被認為是實驗結束時現實世界狀態的完整描述。
事件集（事件空間）$\mathcal{F}$：元素 $A \in \mathcal{F}$ 的集合（稱為事件）是 $\Omega $ 的子集（即每個 $A \subseteq \Omega$ 是一個實驗可能結果的集合）。

備註：$\mathcal{F}$需要滿足以下三個條件：

(1) $\emptyset \in \mathcal{F}$

(2) $A \in \mathcal{F} \Longrightarrow \Omega \backslash A \in \mathcal{F}$

(3) $A_1,A_2,\cdots A_{i} \in \mathcal{F}\Longrightarrow\cup_{i} A_{i} \in \mathcal{F}$
概率度量$P$：函式$P$是一個$ \mathcal{F} \rightarrow \mathbb{R}$的對映，滿足以下性質：
- 對於每個 $A \in \mathcal{F}$，$P(A) \geq 0$,
- $P(\Omega) = 1$
- 如果$A_1 ,A_2 ,\cdots$ 是互不相交的事件 (即當$ i \neq j$時，$A_{i} \cap A_{j}=\emptyset$ ), 那麼：
  
  \[P\left(\cup_{i} A_{i}\right)=\sum_{i} P\left(A_{i}\right) \]

以上三條性質被稱為概率公理。

舉例：

考慮投擲六面骰子的事件。樣本空間為$\Omega= \{1，2，3，4，5，6\}$。最簡單的事件空間是平凡事件空間$\mathcal{F} = \{\emptyset,\Omega\}$.另一個事件空間是$\Omega$的所有子集的集合。對於第一個事件空間，滿足上述要求的唯一概率度量由$P(\emptyset) = 0$，$p(\Omega)= 1$給出。對於第二個事件空間，一個有效的概率度量是將事件空間中每個事件的概率分配為$i/6$

，這裡$i$ 是這個事件集合中元素的數量；例如$P(\{1,2,3,4\}) =4/6$，$P(\{1,2,3\}) =3/6$。

性質：

如果$A \subseteq B$，則：$ P(A) \leq P(B)$
$P(A \cap B) \leq min(P(A),P(B) )$
(布林不等式)：$P(A \cup B) \leq P(A)+P(B)$
$P(\Omega |A ) =1-P(A)$
(全概率定律)：如果$A_1，\cdots，A_k$是一些互不相交的事件並且它們的並集是$\Omega$，那麼它們的概率之和是1

1.1 事件的關係與運算

(1) 子事件：$A \subset B$，若$A$發生，則$B$發生。

(2) 相等事件：$A = B$，即$A \subset B$，且$B \subset A$ 。

(3) 和事件：$A\bigcup B$（或$A + B$），$A$與$B$中至少有一個發生。

(4) 差事件：$A - B$，$A$發生但$B$不發生。

(5) 積事件：$A\bigcap B$（或${AB}$），$A$與$B$同時發生。

(6) 互斥事件（互不相容）：$A\bigcap B$=$\varnothing$。

(7) 互逆事件（對立事件）：
$A\bigcap B=\varnothing ,A\bigcup B=\Omega ,A=\bar{B},B=\bar{A}$

1.2 運算律

(1) 交換律：$A\bigcup B=B\bigcup A,A\bigcap B=B\bigcap A$
(2) 結合律：$(A\bigcup B)\bigcup C=A\bigcup (B\bigcup C)$
(3) 分配律：$(A\bigcap B)\bigcap C=A\bigcap (B\bigcap C)$

1.3 德$\centerdot $摩根律

$\overline{A\bigcup B}=\bar{A}\bigcap \bar{B}$

$\overline{A\bigcap B}=\bar{A}\bigcup \bar{B}$

1.4 完全事件組

${{A}_{1}}{{A}_{2}}\cdots {{A}_{n}}$兩兩互斥，且和事件為必然事件，即${{A}_{i}}\bigcap {{A}_{j}}=\varnothing, i\ne j ,U_{i=1}^n = \Omega$

1.5 概率的基本公式

(1)條件概率:
$P(A | B) \triangleq \frac{P(A \cap B)}{P(B)}$,表示$A$發生的條件下，$B$發生的概率。

(2)全概率公式：
$P(A)=\sum\limits_{i=1}^{n}{P(A|{{B}_{i}})P({{B}_{i}}),{{B}_{i}}{{B}_{j}}}=\varnothing ,i\ne j,\underset{i=1}{\overset{n}{\mathop{\bigcup }}}\,{{B}_{i}}=\Omega$

(3) Bayes 公式：

\[P({{B}_{j}}|A)=\frac{P(A|{{B}_{j}})P({{B}_{j}})}{\sum\limits_{i=1}^{n}{P(A|{{B}_{i}})P({{B}_{i}})}},j=1,2,\cdots ,n \]

注：上述公式中事件${{B}_{i}}$的個數可為可列個。

(4)乘法公式：
$P({{A}_{1}}{{A}_{2}})=P({{A}_{1}})P({{A}_{2}}|{{A}_{1}})=P({{A}_{2}})P({{A}_{1}}|{{A}_{2}})$
$P({{A}_{1}}{{A}_{2}}\cdots {{A}_{n}})=P({{A}_{1}})P({{A}_{2}}|{{A}_{1}})P({{A}_{3}}|{{A}_{1}}{{A}_{2}})\cdots P({{A}_{n}}|{{A}_{1}}{{A}_{2}}\cdots {{A}_{n-1}})$

1.6.事件的獨立性

(1)$A$與$B$相互獨立

$\Leftrightarrow P(AB)=P(A)P(B)$

(2)$A$，$B$，$C$兩兩獨立
$\Leftrightarrow P(AB)=P(A)P(B)$;$P(BC)=P(B)P(C)$ ;$P(AC)=P(A)P(C)$;

(3)$A$，$B$，$C$相互獨立
$\Leftrightarrow P(AB)=P(A)P(B)$; $P(BC)=P(B)P(C)$ ;
$P(AC)=P(A)P(C)$ ; $P(ABC)=P(A)P(B)P(C)$

1.7 獨立重複試驗

將某試驗獨立重複$n$次，若每次實驗中事件 A 發生的概率為$p$，則$n$次試驗中$A$發生$k$次的概率為：
$P(X=k)=C_{n}^{k}{{p}^{k}}{{(1-p)}^{n-k}}$

1.8 重要公式與結論

$(1)P(\bar{A})=1-P(A)$

$(2)P(A\bigcup B)=P(A)+P(B)-P(AB)$
$P(A\bigcup B\bigcup C)=P(A)+P(B)+P(C)-P(AB)-P(BC)-P(AC)+P(ABC)$

$(3)P(A-B)=P(A)-P(AB)$

$(4)P(A\bar{B})=P(A)-P(AB),P(A)=P(AB)+P(A\bar{B}),$
$P(A\bigcup B)=P(A)+P(\bar{A}B)=P(AB)+P(A\bar{B})+P(\bar{A}B)$

(5)條件概率$P(\centerdot |B)$滿足概率的所有性質，
例如：. $P({{\bar{A}}_{1}}|B)=1-P({{A}_{1}}|B)$
$P({{A}_{1}}\bigcup {{A}_{2}}|B)=P({{A}_{1}}|B)+P({{A}_{2}}|B)-P({{A}_{1}}{{A}_{2}}|B)$
$P({{A}_{1}}{{A}_{2}}|B)=P({{A}_{1}}|B)P({{A}_{2}}|{{A}_{1}}B)$

(6)若${{A}_{1}},{{A}_{2}},\cdots ,{{A}_{n}}$相互獨立，則$P(\bigcap\limits_{i=1}^{n}{{{A}_{i}}})=\prod\limits_{i=1}^{n}{P({{A}_{i}})},$
$P(\bigcup\limits_{i=1}^{n}{{{A}_{i}}})=\prod\limits_{i=1}^{n}{(1-P({{A}_{i}}))}$

(7)互斥、互逆與獨立性之間的關係：
$A$與$B$互逆$\Rightarrow$ $A$與$B$互斥，但反之不成立，$A$與$B$互斥（或互逆）且均非零概率事件$\Rightarrow $$A$與$B$不獨立.

(8)若${{A}_{1}},{{A}_{2}},\cdots ,{{A}_{m}},{{B}_{1}},{{B}_{2}},\cdots ,{{B}_{n}}$相互獨立，則$f({{A}_{1}},{{A}_{2}},\cdots ,{{A}_{m}})$與$g({{B}_{1}},{{B}_{2}},\cdots ,{{B}_{n}})$也相互獨立，其中$f(\centerdot ),g(\centerdot )$分別表示對相應事件做任意事件運算後所得的事件，另外，概率為 1（或 0）的事件與任何事件相互獨立.

2. 隨機變數

考慮一個實驗，我們翻轉10枚硬幣，我們想知道正面硬幣的數量。這裡，樣本空間$\Omega$的元素是長度為10的序列。例如，我們可能有$w_0 = \{H，H，T，H，T，H，H，T，T，T\}\in\Omega$。然而，在實踐中，我們通常不關心獲得任何特定正反序列的概率。相反，我們通常關心結果的實值函式，比如我們10次投擲中出現的正面數，或者最長的背面長度。在某些技術條件下，這些函式被稱為隨機變數。

更正式地說，隨機變數$X$是一個的$\Omega \longrightarrow \mathbb{R}$函式。通常，我們將使用大寫字母$X(\omega)$或更簡單的$X$(其中隱含對隨機結果$\omega$的依賴)來表示隨機變數。我們將使用小寫字母$x$來表示隨機變數的值。

舉例：
在我們上面的實驗中，假設$X(\omega)$是在投擲序列$\omega$中出現的正面的數量。假設投擲的硬幣只有10枚，那麼$X(\omega)$只能取有限數量的值，因此它被稱為離散隨機變數。這裡，與隨機變數$X$相關聯的集合取某個特定值$k$的概率為：

\[P(X=k) :=P(\{\omega : X(\omega) =k\}) \]

舉例：
假設$X(\omega)$是一個隨機變數，表示放射性粒子衰變所需的時間。在這種情況下，$X(\omega)$具有無限多的可能值，因此它被稱為連續隨機變數。我們將$X$在兩個實常數$a$和$b$之間取值的概率(其中$a < b$)表示為：

\[P(a \leq X \leq b) :=P(\{\omega : a \leq X(\omega) \leq b\}) \]

2.1 累積分佈函式

為了指定處理隨機變數時使用的概率度量，通常可以方便地指定替代函式(CDF、PDF和PMF)，在本節和接下來的兩節中，我們將依次描述這些型別的函式。

累積分佈函式(CDF)（簡稱分佈函式）是函式$F_{X} : \mathbb{R} \rightarrow[0,1]$，它將概率度量指定為：

\[F_{X}(x) \triangleq P(X \leq x) \]

通過使用這個函式，我們可以計算任意事件發生的概率。圖1顯示了一個樣本CDF函式。

圖1：一個累計分佈函式(CDF)

性質：

$0 \leq F_{X}(x)\leq 1$
$\lim _{x \rightarrow-\infty} F_{X}(x)=0$
$\lim _{x \rightarrow\infty} F_{X}(x)=1$
$x \leq y \Longrightarrow F_{X}(x)\leq F_{X}(y)$

2.2 概率質量函式

當隨機變數$X$取有限種可能值(即，$X$是離散隨機變數)時，表示與隨機變數相關聯的概率度量的更簡單的方法是直接指定隨機變數可以假設的每個值的概率。特別地，概率質量函式(PMF)是函式 $p_{X} : \Omega \rightarrow \mathbb{R}$，這樣：

\[p_{X}(x) \triangleq P(X=x) \]

在離散隨機變數的情況下，我們使用符號$Val(X)$表示隨機變數$X$可能假設的一組可能值。例如，如果$X(\omega)$是一個隨機變數，表示十次投擲硬幣中的正面數，那麼$Val(X) =\{0，1，2，...，10\}$。

性質：

$0 \leq p_{X}(x)\leq 1$
$\sum_{x \in V \text { al }(X)} p_{X}(x)=1$
$\sum_{x \in A} p_{X}(x)=P(X \in A)$

2.3 概率密度函式

對於一些連續隨機變數，累積分佈函式$F_X (x)$處可微。在這些情況下，我們將概率密度函式(PDF)定義為累積分佈函式的導數，即：

\[f_{X}(x) \triangleq \frac{d F_{X}(x)}{d x} \]

請注意，連續隨機變數的概率密度函式可能並不總是存在的(即，如果它不是處處可微)。

根據微分的性質，對於很小的$\Delta x$，

\[P(x \leq X \leq x+\Delta x) \approx f_{X}(x) \Delta x \]

CDF和PDF(當它們存在時！)都可用於計算不同事件的概率。但是應該強調的是，任意給定點的概率密度函式(PDF)的值不是該事件的概率，即$f _X (x) \not = P(X = x)$。例如，$f _X (x)$可以取大於1的值(但是$f _X (x)$在$\mathbb{R}$的任何子集上的積分最多為1)。

性質：

$f_X(x)\geq 0$
$\int_{-\infty}^{\infty} f_{X}(x)=1$
$\int_{x \in A} f_{X}(x) d x=P(X \in A)$

2.4 期望

假設$X$是一個離散隨機變數，其PMF為 $p_X (x)$，$g : \mathbb{R} \longrightarrow \mathbb{R}$是一個任意函式。在這種情況下，$g(X)$可以被視為隨機變數，我們將$g(X)$的期望值定義為：

\[E[g(X)] \triangleq \sum_{x \in V a l(X)} g(x) p_{X}(x) \]

如果$X$是一個連續的隨機變數，其PDF 為$f _X (x)$，那麼$g(X)$的期望值被定義為：

\[E[g(X)] \triangleq \int_{-\infty}^{\infty} g(x) f_{X}(x) d x \]

直覺上，$g(X)$的期望值可以被認為是$g(x)$對於不同的$x$值可以取的值的“加權平均值”，其中權重由$p_X(x)$或$f_X(x)$給出。作為上述情況的特例，請注意，隨機變數本身的期望值，是通過令$g(x) = x$得到的，這也被稱為隨機變數的平均值。

性質：

對於任意常數 $a \in \mathbb{R}$，$E[a]=a$
對於任意常數 $a \in \mathbb{R}$，$E[af(X)]=aE[f(X)]$
(線性期望)：$E[f(X)+g(X)]=E[f(X)]+E[g(X)]$
對於一個離散隨機變數$X$，$E[1\{X=k\}]=P(X=k)$

2.5 方差

隨機變數$X$的方差是隨機變數$X$的分佈圍繞其平均值集中程度的度量。形式上，隨機變數$X$的方差定義為：

\[\operatorname{Var}[X] \triangleq E\left[(X-E(X))^{2}\right] \]

使用上一節中的性質，我們可以匯出方差的替代表達式:

\[\begin{aligned} E\left[(X-E[X])^{2}\right] &=E\left[X^{2}-2 E[X] X+E[X]^{2}\right] \\ &=E\left[X^{2}\right]-2 E[X] E[X]+E[X]^{2} \\ &=E\left[X^{2}\right]-E[X]^{2} \end{aligned} \]

其中第二個等式來自期望的線性，以及$E[X]$相對於外層期望實際上是常數的事實。

性質：

對於任意常數 $a \in \mathbb{R}$，$Val[a]=0$
對於任意常數 $a \in \mathbb{R}$，$Var[af(X)]=a^2Var[f(X)]$

舉例：

計算均勻隨機變數$X$的平均值和方差，任意$x \in [0，1]$，其PDF為 $p_X(x)= 1$，其他地方為0。

\[E[X]=\int_{-\infty}^{\infty} x f_{X}(x) d x=\int_{0}^{1} x d x=\frac{1}{2} \]\[E\left[X^{2}\right]=\int_{-\infty}^{\infty} x^{2} f_{X}(x) d x=\int_{0}^{1} x^{2} d x=\frac{1}{3} \]\[Var[X]=E[X^2]-E[X]^2=\frac{1}{3}-\frac{1}{4}=\frac{1}{12} \]

舉例：

假設對於一些子集$A \subseteq \Omega$，有$g(x) = 1\{x \in A\}$，計算$E[g(X)]$?

離散情況：

\[E[g(X)]=\sum_{x \in V a l(X)} 1\{x \in A\} P_{X}(x) d x=\sum_{x \in A} P_{X}(x) d x=P(x \in A) \]

連續情況：

\[E[g(X)]=\int_{-\infty}^{\infty} 1\{x \in A\} f_{X}(x) d x=\int_{x \in A} f_{X}(x) d x=P(x \in A) \]

2.6 一些常見的隨機變數

離散隨機變數

伯努利分佈：硬幣擲出正面的概率為$p$（其中：$0 \leq p \leq 1$），如果正面發生，則為1，否則為0。
\[p(x)=\left\{\begin{array}{ll}{p} & {\text { if } p=1} \\ {1-p} & {\text { if } p=0}\end{array}\right. \]
二項式分佈：擲出正面概率為$p$（其中：$0 \leq p \leq 1$）的硬幣$n$次獨立投擲中正面的數量。
\[p(x)=\left(\begin{array}{l}{n} \\ {x}\end{array}\right) p^{x}(1-p)^{n-x} \]
泊松分佈：用於模擬罕見事件頻率的非負整數的概率分佈（其中：$\lambda >0$）。
\[p(x)=e^{-\lambda} \frac{\lambda^{x}}{x !} \]
幾何分佈：擲出正面概率為$p$（其中：$p >0$）的硬幣第一次擲出正面所需要的次數。
\[G(p):P(X = k) = {(1 - p)}^{k - 1}p,0 < p < 1,k = 1,2,\cdots. \]
超幾何分佈：$H(N,M,n):P(X = k) = \frac{C_{M}^{k}C_{N - M}^{n -k}}{C_{N}^{n}},k =0,1,\cdots,min(n,M)$

連續隨機變數

均勻分佈：在$a$和$b$之間每個點概率密度相等的分佈（其中：$a<b$）。
\[f(x)=\left\{\begin{array}{ll}{\frac{1}{b-a}} & {\text { if } a \leq x \leq b} \\ {0} & {\text { otherwise }}\end{array}\right. \]
指數分佈：在非負實數上有衰減的概率密度（其中：$\lambda >0$）。
\[f(x)=\left\{\begin{array}{ll}{\lambda e^{-\lambda x}} & {\text { if } x \geq 0} \\ {0} & {\text { otherwise }}\end{array}\right. \]
正態分佈：又被稱為高斯分佈。
\[f(x)=\frac{1}{\sqrt{2 \pi} \sigma} e^{-\frac{1}{2 \sigma^{2}}(x-\mu)^{2}} \]

一些隨機變數的概率密度函式和累積分佈函式的形狀如圖2所示。

圖2：一些隨機變數的概率密度函式(PDF)和累積分佈函式(CDF)

下表總結了這些分佈的一些特性：

分佈	概率密度函式(PDF)或者概率質量函式(PMF)	均值	方差
$Bernoulli(p)$(伯努利分佈)	$\left\{\begin{array}{ll}{p} & {\text { if } x=1} \\ {1-p} & {\text { if } x=0}\end{array}\right.$	$p$	$p(1-p)$
$Binomial(n,p)$(二項式分佈)	$\left(\begin{array}{l}{n} \\ {k}\end{array}\right) p^{k}(1-p)^{n-k}$ 其中：$0 \leq k \leq n$	$np$	$npq$
$Geometric(p)$(幾何分佈)	$p(1-p)^{k-1}$ 其中：$k=1,2,\cdots$	$\frac{1}{p}$	$\frac {1-p}{p^2}$
$Poisson(\lambda)$(泊松分佈)	$e^{-\lambda} \lambda^{x} / x !$ 其中：$k=1,2,\cdots$	$\lambda$	$\lambda$
$Uniform(a,b)$(均勻分佈)	$\frac{1}{b-a}$ 存在$x \in (a,b)$	$\frac{a+b}{2}$	$\frac{(b-a)^2}{12}$
$Gaussian(\mu,\sigma^2)$(高斯分佈)	$\frac{1}{\sqrt{2 \pi} \sigma} e^{-\frac{1}{2 \sigma^{2}}(x-\mu)^{2}}$	$\mu$	$\sigma^2$
$Exponential(\lambda)$(指數分佈)	$\lambda e^{-\lambda x}$ $x\geq0,\lambda>0$	$\frac{1}{\lambda}$	$\frac{1}{\lambda^2}$

2.7 重要公式與結論

(1) $X\sim N(0,1) \Rightarrow \varphi(0) = \frac{1}{\sqrt{2\pi}},\Phi(0) =\frac{1}{2},$ $\Phi( - a) = P(X \leq - a) = 1 - \Phi(a)$

(2) $X\sim N\left( \mu,\sigma^{2} \right) \Rightarrow \frac{X -\mu}{\sigma}\sim N\left( 0,1 \right),P(X \leq a) = \Phi(\frac{a -\mu}{\sigma})$

(3) $X\sim E(\lambda) \Rightarrow P(X > s + t|X > s) = P(X > t)$

(4) $X\sim G(p) \Rightarrow P(X = m + k|X > m) = P(X = k)$

(5) 離散型隨機變數的分佈函式為階梯間斷函式；連續型隨機變數的分佈函式為連續函式，但不一定為處處可導函式。

(6) 存在既非離散也非連續型隨機變數。

3. 兩個隨機變數

到目前為止，我們已經考慮了單個隨機變數。然而，在許多情況下，在隨機實驗中，我們可能有不止一個感興趣的量。例如，在一個我們擲硬幣十次的實驗中，我們可能既關心$X(\omega) =$出現的正面數量，也關心$Y (\omega) =$連續最長出現正面的長度。在本節中，我們考慮兩個隨機變數的設定。

3.1 聯合分佈和邊緣分佈

假設我們有兩個隨機變數，一個方法是分別考慮它們。如果我們這樣做，我們只需要$F_X (x)$和$F_Y (y)$。但是如果我們想知道在隨機實驗的結果中，$X$和$Y$同時假設的值，我們需要一個更復雜的結構，稱為$X$和$Y$的聯合累積分佈函式，定義如下:

\[F_{XY}(x,y)=P(X \leq x,Y \leq y) \]

可以證明，通過了解聯合累積分佈函式，可以計算出任何涉及到$X$和$Y$的事件的概率。

聯合CDF: $F_{XY }(x,y)$和每個變數的聯合分佈函式$F_X(x)$和$F_Y (y)$分別由下式關聯:

\[F_{X}(x)=\lim _{y \rightarrow \infty} F_{X Y}(x, y) d y \]\[F_{Y}(y)=\lim _{y \rightarrow \infty} F_{X Y}(x, y) dx \]

這裡我們稱$F_X(x)$和$F_Y (y)$為 $F_{XY }(x,y)$的邊緣累積概率分佈函式。

性質：

$0 \leq F_{XY }(x,y) \leq 1$
$\lim _{x, y \rightarrow \infty} F_{X Y}(x, y)=1$
$\lim _{x, y \rightarrow -\infty} F_{X Y}(x, y)=0$
$F_{X}(x)=\lim _{y \rightarrow \infty} F_{X Y}(x, y)$

3.2 聯合概率和邊緣概率質量函式

如果$X$和$Y$是離散隨機變數，那麼聯合概率質量函式 $p_{X Y} : \mathbb{R} \times \mathbb{R} \rightarrow [0,1]$由下式定義：

\[p_{X Y}(x,y)=P(X=x,Y=y) \]

這裡, 對於任意$x$，$y$，$0 \leq P_{XY} (x,y) \leq 1$, 並且 $\sum_{x \in V a l(X)} \sum_{y \in V a l(Y)} P_{X Y}(x, y)=1$

兩個變數上的聯合PMF分別與每個變數的概率質量函式有什麼關係？事實上：

\[p_{X}(x)=\sum_{y} p_{X Y}(x, y) \]

對於$p_Y (y)$類似。在這種情況下，我們稱$p_X(x)$為$X$的邊際概率質量函式。在統計學中，將一個變數相加形成另一個變數的邊緣分佈的過程通常稱為“邊緣化”。

3.3 聯合概率和邊緣概率密度函式

假設$X$和$Y$是兩個連續的隨機變數，具有聯合分佈函式$F_{XY}$。在$F_{XY}(x,y)$在$x$和$y$中處處可微的情況下，我們可以定義聯合概率密度函式：

\[f_{X Y}(x, y)=\frac{\partial^{2} F_{X Y}(x, y)}{\partial x \partial y} \]

如同在一維情況下，$f_{XY}(x,y)\not= P(X = x,Y = y)$，而是：

\[\iint_{x \in A} f_{X Y}(x, y) d x d y=P((X, Y) \in A) \]

請注意，概率密度函式$f_{XY}(x,y)$的值總是非負的，但它們可能大於1。儘管如此，可以肯定的是 $\int_{-\infty}^{\infty} \int_{-\infty}^{\infty} f_{X Y}(x, y)=1$

與離散情況相似，我們定義:

\[f_{X}(x)=\int_{-\infty}^{\infty} f_{X Y}(x, y) d y \]

作為$X$的邊際概率密度函式(或邊際密度)，對於$f_Y (y)$也類似。

3.4 條件概率分佈

條件分佈試圖回答這樣一個問題，當我們知道$X$必須取某個值$x$時，$Y$上的概率分佈是什麼？在離散情況下，給定$Y$的條件概率質量函式是簡單的：

\[p_{Y | X}(y | x)=\frac{p_{X Y}(x, y)}{p_{X}(x)} \]

假設分母不等於0。

在連續的情況下，在技術上要複雜一點，因為連續隨機變數的概率等於零。忽略這一技術點，我們通過類比離散情況，簡單地定義給定$X = x$的條件概率密度為：

\[f_{Y | X}(y | x)=\frac{f_{X Y}(x, y)}{f_{X}(x)} \]

假設分母不等於0。

3.5 貝葉斯定理

當試圖推導一個變數給定另一個變數的條件概率表示式時，經常出現的一個有用公式是貝葉斯定理。

對於離散隨機變數$X$和$Y$：

\[P_{Y | X}(y | x)=\frac{{P_{XY}}(x, y)}{P_{X}(x)}=\frac{P_{X | Y}(x | y) P_{Y}(y)}{\sum_{y^{\prime} \in V a l(Y)} P_{X | Y}\left(x | y^{\prime}\right) P_{Y}\left(y^{\prime}\right)} \]

對於連續隨機變數$X$和$Y$：

\[f_{Y | X}(y | x)=\frac{f_{X Y}(x, y)}{f_{X}(x)}=\frac{f_{X | Y}(x | y) f_{Y}(y)}{\int_{-\infty}^{\infty} f_{X | Y}\left(x | y^{\prime}\right) f_{Y}\left(y^{\prime}\right) d y^{\prime}} \]

3.6 獨立性

如果對於$X$和$Y$的所有值，$F_{XY}(x,y) = F_X(x)F_Y(y)$，則兩個隨機變數$X$和$Y$是獨立的。等價地，

對於離散隨機變數, 對於任意$x \in Val(X)$, $y \in Val(Y)$ ，$p_{XY}(x,y) = p_X (x)p_Y (y)$。
對於離散隨機變數, $p_Y |X (y|x) = p_Y (y)$當對於任意$y \in Val(Y)$且$p_X (x) \not= 0$。
對於連續隨機變數, $f_{XY}(x,y) = f_X (x)f_Y(y)$ 對於任意 $x,y \in \mathbb{R}$。
對於連續隨機變數, $f_{Y |X} (y|x) = f_Y (y)$ ，當$f_X (x)\not = 0$對於任意$y \in \mathbb{R}$。

非正式地說，如果“知道”一個變數的值永遠不會對另一個變數的條件概率分佈有任何影響，那麼兩個隨機變數$X$和$Y$是獨立的，也就是說，你只要知道$f(x)$和$f(y)$就知道關於這對變數$(X，Y)$的所有資訊。以下引理將這一觀察形式化:

引理3.1

如果$X$和$Y$是獨立的，那麼對於任何$A，B⊆ \mathbb{R}$，我們有：

\[P(X \in A, Y \in B)=P(X \in A) P(Y \in B) \]

利用上述引理，我們可以證明如果$X$與$Y$無關，那麼$X$的任何函式都與$Y$的任何函式無關。

3.7 期望和協方差

假設我們有兩個離散的隨機變數$X$，$Y$並且$g : \mathbf{R}^{2} \longrightarrow \mathbf{R}$是這兩個隨機變數的函式。那麼$g$的期望值以如下方式定義：

\[E[g(X, Y)] \triangleq \sum_{x \in V a l(X)} \sum_{y \in V a l(Y)} g(x, y) p_{X Y}(x, y) \]

對於連續隨機變數$X$，$Y$，類似的表示式是：

\[E[g(X, Y)]=\int_{-\infty}^{\infty} \int_{-\infty}^{\infty} g(x, y) f_{X Y}(x, y) d x d y \]

我們可以用期望的概念來研究兩個隨機變數之間的關係。特別地，兩個隨機變數的協方差定義為：

\[{Cov}[X, Y] \triangleq E[(X-E[X])(Y-E[Y])] \]

使用類似於方差的推導，我們可以將它重寫為：

\[\begin{aligned} {Cov}[X, Y] &=E[(X-E[X])(Y-E[Y])] \\ &=E[X Y-X E[Y]-Y E[X]+E[X] E[Y]] \\ &=E[X Y]-E[X] E[Y]-E[Y] E[X]+E[X] E[Y]] \\ &=E[X Y]-E[X] E[Y] \end{aligned} \]

在這裡，說明兩種協方差形式相等的關鍵步驟是第三個等號，在這裡我們使用了這樣一個事實，即$E[X]$和$E[Y]$實際上是常數，可以被提出來。當$cov[X，Y] = 0$時，我們說$X$和$Y$不相關。

性質：

(期望線性) $E[f(X,Y ) + g(X,Y)] = E[f(X,Y )] + E[g(X,Y)]$
$V ar[X + Y ] = V ar[X] + V ar[Y ] + 2Cov[X,Y]$
如果$X$和$Y$相互獨立, 那麼 $Cov[X,Y ] = 0$
如果$X$和$Y$相互獨立, 那麼 $E[f(X)g(Y )] = E[f(X)]E[g(Y)]$.

3.8 常見的二維隨機變數

(1) 二維均勻分佈：$(x,y) \sim U(D)$ ,$f(x,y) = \begin{cases} \frac{1}{S(D)},(x,y) \in D \\ 0,其他 \end{cases}$

(2) 二維正態分佈：$(X,Y)\sim N(\mu_{1},\mu_{2},\sigma_{1}^{2},\sigma_{2}^{2},\rho)$,$(X,Y)\sim N(\mu_{1},\mu_{2},\sigma_{1}^{2},\sigma_{2}^{2},\rho)$

$f(x,y) = \frac{1}{2\pi\sigma_{1}\sigma_{2}\sqrt{1 - \rho^{2}}}.\exp\left\{ \frac{- 1}{2(1 - \rho^{2})}\lbrack\frac{{(x - \mu_{1})}^{2}}{\sigma_{1}^{2}} - 2\rho\frac{(x - \mu_{1})(y - \mu_{2})}{\sigma_{1}\sigma_{2}} + \frac{{(y - \mu_{2})}^{2}}{\sigma_{2}^{2}}\rbrack \right\}$

3.9 重要公式與結論

(1) 邊緣密度公式： $f_{X}(x) = \int_{- \infty}^{+ \infty}{f(x,y)dy,}$
$f_{Y}(y) = \int_{- \infty}^{+ \infty}{f(x,y)dx}$

(2) $P\left\{ \left( X,Y \right) \in D \right\} = \iint_{D}^{}{f\left( x,y \right){dxdy}}$

(3) 若$(X,Y)$服從二維正態分佈$N(\mu_{1},\mu_{2},\sigma_{1}^{2},\sigma_{2}^{2},\rho)$
則有：

$X\sim N\left( \mu_{1},\sigma_{1}^{2} \right),Y\sim N(\mu_{2},\sigma_{2}^{2}).$
$X$與$Y$相互獨立$\Leftrightarrow \rho = 0$，即$X$與$Y$不相關。
$C_{1}X + C_{2}Y\sim N(C_{1}\mu_{1} + C_{2}\mu_{2},C_{1}^{2}\sigma_{1}^{2} + C_{2}^{2}\sigma_{2}^{2} + 2C_{1}C_{2}\sigma_{1}\sigma_{2}\rho)$
${\ X}$關於$Y=y$的條件分佈為： $N(\mu_{1} + \rho\frac{\sigma_{1}}{\sigma_{2}}(y - \mu_{2}),\sigma_{1}^{2}(1 - \rho^{2}))$
$Y$關於$X = x$的條件分佈為： $N(\mu_{2} + \rho\frac{\sigma_{2}}{\sigma_{1}}(x - \mu_{1}),\sigma_{2}^{2}(1 - \rho^{2}))$

(4) 若$X$與$Y$獨立，且分別服從$N(\mu_{1},\sigma_{1}^{2}),N(\mu_{1},\sigma_{2}^{2}),$
則：$\left( X,Y \right)\sim N(\mu_{1},\mu_{2},\sigma_{1}^{2},\sigma_{2}^{2},0),$

$C_{1}X + C_{2}Y\tilde{\ }N(C_{1}\mu_{1} + C_{2}\mu_{2},C_{1}^{2}\sigma_{1}^{2} C_{2}^{2}\sigma_{2}^{2}).$

(5) 若$X$與$Y$相互獨立，$f\left( x \right)$和$g\left( x \right)$為連續函式，則$f\left( X \right)$和$g(Y)$也相互獨立。

4. 多個隨機變數

上一節介紹的概念和想法可以推廣到兩個以上的隨機變數。特別是，假設我們有$n$個連續隨機變數，$X _1 (\omega),X_2 (\omega),\cdots X_n (\omega)$。在本節中，為了表示簡單，我們只關注連續的情況，對離散隨機變數的推廣工作類似。

4.1 基本性質

我們可以定義$X_1,X_2,\cdots,X_n$的聯合累積分佈函式、聯合概率密度函式，以及給定$X_2,\cdots,X_n$時$X_1$的邊緣概率密度函式為：

\[F_{X_{1}, X_{2}, \ldots, X_{n}}\left(x_{1}, x_{2}, \ldots x_{n}\right)=P\left(X_{1} \leq x_{1}, X_{2} \leq x_{2}, \ldots, X_{n} \leq x_{n}\right) \]\[f_{X_{1}, X_{2}, \ldots, X_{n}}\left(x_{1}, x_{2}, \ldots x_{n}\right)=\frac{\partial^{n} F_{X_{1}, X_{2}, \ldots, X_{n}}\left(x_{1}, x_{2}, \ldots x_{n}\right)}{\partial x_{1} \ldots \partial x_{n}} \]\[f_{X_{1}}\left(X_{1}\right)=\int_{-\infty}^{\infty} \cdots \int_{-\infty}^{\infty} f_{X_{1}, X_{2}, \ldots, X_{n}}\left(x_{1}, x_{2}, \ldots x_{n}\right) d x_{2} \ldots d x_{n} \]\[f_{X_{1} | X_{2}, \ldots, X_{n}}\left(x_{1} | x_{2}, \dots x_{n}\right)=\frac{f_{X_{1}, X_{2}, \ldots, X_{n}}\left(x_{1}, x_{2}, \dots x_{n}\right)}{f_{X_{2}, \ldots, X_{n}}\left(x_{1}, x_{2}, \ldots x_{n}\right)} \]

為了計算事件$A \subseteq \mathbb{R}^{n}$的概率，我們有：

\[P\left(\left(x_{1}, x_{2}, \ldots x_{n}\right) \in A\right)=\int_{\left(x_{1}, x_{2}, \ldots x_{n}\right) \in A} f_{X_{1}, X_{2}, \ldots, X_{n}}\left(x_{1}, x_{2}, \ldots x_{n}\right) d x_{1} d x_{2} \ldots d x_{n} \]

鏈式法則：

從多個隨機變數的條件概率的定義中，可以看出：

\[\begin{aligned} f\left(x_{1}, x_{2}, \ldots, x_{n}\right) &=f\left(x_{n} | x_{1}, x_{2} \ldots, x_{n-1}\right) f\left(x_{1}, x_{2} \ldots, x_{n-1}\right) \\ &=f\left(x_{n} | x_{1}, x_{2} \ldots, x_{n-1}\right) f\left(x_{n-1} | x_{1}, x_{2} \ldots, x_{n-2}\right) f\left(x_{1}, x_{2} \ldots, x_{n-2}\right) \\ &=\cdots=f\left(x_{1}\right) \prod_{i=2}^{n} f\left(x_{i} | x_{1}, \ldots, x_{i-1}\right) \end{aligned} \]

獨立性:對於多個事件，$A_1,\cdots ,A_k$,我們說$A_1,\cdots ,A_k$ 是相互獨立的,當對於任何子集$S \subseteq \{1，2,\cdots,k\}$，我們有：

\[P\left(\cap_{i \in S} A_{i}\right)=\prod_{i \in S} P\left(A_{i}\right) \]

同樣，我們說隨機變數$X_1,X_2,\cdots,X_n$是獨立的，如果：

\[f(x_1,\cdots,x_n)=f(x_1)f(x_2)\cdots f(x_n) \]

這裡，相互獨立性的定義只是兩個隨機變數獨立性到多個隨機變數的自然推廣。

獨立隨機變數經常出現在機器學習演算法中，其中我們假設屬於訓練集的訓練樣本代表來自某個未知概率分佈的獨立樣本。為了明確獨立性的重要性，考慮一個“壞的”訓練集，我們首先從某個未知分佈中抽取一個訓練樣本$(x^{ (1)},y^{(1)})$，然後將完全相同的訓練樣本的$m-1$個副本新增到訓練集中。在這種情況下，我們有：

\[P\left(\left(x^{(1)}, y^{(1)}\right), \ldots .\left(x^{(m)}, y^{(m)}\right)\right) \neq \prod_{i=1}^{m} P\left(x^{(i)}, y^{(i)}\right) \]

儘管訓練集的大小為$m$，但這些例子並不獨立！雖然這裡描述的過程顯然不是為機器學習演算法建立訓練集的明智方法，但是事實證明，在實踐中，樣本的不獨立性確實經常出現，並且它具有減小訓練集的“有效大小”的效果。

4.2 隨機向量

假設我們有n個隨機變數。當把所有這些隨機變數放在一起工作時，我們經常會發現把它們放在一個向量中是很方便的...我們稱結果向量為隨機向量(更正式地說，隨機向量是從$\Omega$到$\mathbb{R}^n$的對映)。應該清楚的是，隨機向量只是處理$n$個隨機變數的一種替代符號，因此聯合概率密度函式和綜合密度函式的概念也將適用於隨機向量。

期望:

考慮$g : \mathbb{R}^n \rightarrow \mathbb{R}$中的任意函式。這個函式的期望值被定義為

\[E[g(X)]=\int_{\mathbb{R}^{n}} g\left(x_{1}, x_{2}, \ldots, x_{n}\right) f_{X_{1}, X_{2}, \ldots, X_{n}}\left(x_{1}, x_{2}, \ldots x_{n}\right) d x_{1} d x_{2} \ldots d x_{n}E[g(X)]\\=\int_{\mathbb{R}^{n}} g\left(x_{1}, x_{2}, \ldots, x_{n}\right) f_{X_{1}, X_{2}, \ldots, X_{n}}\left(x_{1}, x_{2}, \ldots x_{n}\right) d x_{1} d x_{2} \ldots d x_{n} \]

其中，$\int_{\mathbb{R}^{n}}$是從$-\infty$到$\infty$的$n$個連續積分。如果$g$是從$\mathbb{R}^n$到$\mathbb{R}^m$的函式，那麼$g$的期望值是輸出向量的元素期望值，即，如果$g$是：

\[g(x)=\left[\begin{array}{c}{g_{1}(x)} \\ {g_{2}(x)} \\ {\vdots} \\ {g_{m}(x)}\end{array}\right] \]

那麼，

\[E[g(X)]=\left[\begin{array}{c}{E\left[g_{1}(X)\right]} \\ {E\left[g_{2}(X)\right]} \\ {\vdots} \\ {E\left[g_{m}(X)\right]}\end{array}\right] \]

協方差矩陣：對於給定的隨機向量$X:\Omega\rightarrow \mathbb{R}^n$，其協方差矩陣$\Sigma$是$n \times n$平方矩陣，其輸入由$\Sigma_{i j}={Cov}\left[X_{i}, X_{j}\right]$給出。從協方差的定義來看，我們有：

\[\begin{aligned} \begin{equation} \Sigma=\left[\begin{array}{ccc}{{Cov}\left[X_{1}, X_{1}\right]} & {\cdots} & {{Cov}\left[X_{1}, X_{n}\right]} \\ {\vdots} & {\ddots} & {\vdots} \\ {{Cov}\left[X_{n}, X_{1}\right]} & {\cdots} & {{Cov}\left[X_{n}, X_{n}\right]}\end{array}\right]\\ =\left[\begin{array}{ccc}{E\left[X_{1}^{2}\right]-E\left[X_{1}\right] E\left[X_{1}\right]} & {\cdots} & {E\left[X_{1} X_{n}\right]-E\left[X_{1}\right] E\left[X_{n}\right]} \\ {\vdots} & {\ddots} & {\vdots} \\ {E\left[X_{n} X_{1}\right]-E\left[X_{n}\right] E\left[X_{1}\right]} & {\cdots} & {E\left[X_{n}^{2}\right]-E\left[X_{n}\right] E\left[X_{n}\right]}\end{array}\right]\\ =\left[\begin{array}{ccc}{E\left[X_{1}^{2}\right]} & {\cdots} & {E\left[X_{1} X_{n}\right]} \\ {\vdots} & {\ddots} & {\vdots} \\ {E\left[X_{n} X_{1}\right]} & {\cdots} & {E\left[X_{n}^{2}\right]}\end{array}\right]-\left[\begin{array}{ccc}{E\left[X_{1}\right] E\left[X_{1}\right]} & {\cdots} & {E\left[X_{1}\right] E\left[X_{n}\right]} \\ {\vdots} & {\ddots} & {\vdots} \\ {E\left[X_{n}\right] E\left[X_{1}\right]} & {\cdots} & {E\left[X_{n}\right] E\left[X_{n}\right]}\end{array}\right]\\ =E\left[X X^{T}\right]-E[X] E[X]^{T}=\ldots=E\left[(X-E[X])(X-E[X])^{T}\right] \end{equation} \end{aligned} \]

其中矩陣期望以明顯的方式定義。
協方差矩陣有許多有用的屬性:

$\Sigma \succeq 0$；也就是說，$\Sigma$是正半定的。
$\Sigma=\Sigma^T$；也就是說，$\Sigma$是對稱的。

4.3 多元高斯分佈

隨機向量上概率分佈的一個特別重要的例子叫做多元高斯或多元正態分佈。隨機向量$X\in \mathbb{R}^n$被認為具有多元正態(或高斯)分佈，當其具有均值$\mu \in \mathbb{R}^n$和協方差矩陣$\Sigma \in \mathbb{S}_{++}^{n}$(其中$ \mathbb{S}_{++}^{n}$指對稱正定$n \times n$矩陣的空間)

$f_{X_{1}, X_{2}, \ldots, X_{n}}\left(x_{1}, x_{2}, \ldots, x_{n} ; \mu, \Sigma\right)=\frac{1}{(2 \pi)^{n / 2}|\Sigma|^{1 / 2}} \exp \left(-\frac{1}{2}(x-\mu)^{T} \Sigma^{-1}(x-\mu)\right)$

我們把它寫成$X \sim \mathcal{N}(\mu, \Sigma)$。請注意，在$n = 1$的情況下，它降維成普通正態分佈，其中均值引數為$\mu_1$，方差為$\Sigma_{11}$。

一般來說，高斯隨機變數在機器學習和統計中非常有用，主要有兩個原因：

首先，在統計演算法中對“噪聲”建模時，它們非常常見。通常，噪聲可以被認為是影響測量過程的大量小的獨立隨機擾動的累積；根據中心極限定理，獨立隨機變數的總和將趨向於“看起來像高斯”。

其次，高斯隨機變數便於許多分析操作，因為實際中出現的許多涉及高斯分佈的積分都有簡單的封閉形式解。我們將在本課程稍後遇到這種情況。

5. 隨機變數的數字特徵

一些具體的推導前文有過詳細的闡述，這裡不加綴述，此處僅作總結用

5.1 數學期望

離散型：$P\left\{ X = x_{i} \right\} = p_{i},E(X) = \sum_{i}^{}{x_{i}p_{i}}$；

連續型： $X\sim f(x),E(X) = \int_{- \infty}^{+ \infty}{xf(x)dx}$

性質：

(1) $E(C) = C,E\lbrack E(X)\rbrack = E(X)$

(2) $E(C_{1}X + C_{2}Y) = C_{1}E(X) + C_{2}E(Y)$

(3) 若$X$和$Y$獨立，則$E(XY) = E(X)E(Y)$

(4)$\left\lbrack E(XY) \right\rbrack^{2} \leq E(X^{2})E(Y^{2})$

5.2 方差：

$D(X) = E\left\lbrack X - E(X) \right\rbrack^{2} = E(X^{2}) - \left\lbrack E(X) \right\rbrack^{2}$

5.3 標準差：

離散型：$D(X) = \sum_{i}^{}{\left\lbrack x_{i} - E(X) \right\rbrack^{2}p_{i}}$
連續型：$D(X) = {\int_{- \infty}^{+ \infty}\left\lbrack x - E(X) \right\rbrack}^{2}f(x)dx$

性質：

(1)$\ D(C) = 0,D\lbrack E(X)\rbrack = 0,D\lbrack D(X)\rbrack = 0$

(2) $X$與$Y$相互獨立，則$D(X \pm Y) = D(X) + D(Y)$

(3)$\ D\left( C_{1}X + C_{2} \right) = C_{1}^{2}D\left( X \right)$

(4) 一般有 $D(X \pm Y) = D(X) + D(Y) \pm 2Cov(X,Y) = D(X) + D(Y) \pm 2\rho\sqrt{D(X)}\sqrt{D(Y)}$

(5)$\ D\left( X \right) < E\left( X - C \right)^{2},C \neq E\left( X \right)$

(6)$\ D(X) = 0 \Leftrightarrow P\left\{ X = C \right\} = 1$

5.4 隨機變數函式的數學期望

(1) 對於函式$Y = g(x)$

$X$為離散型：$P\{ X = x_{i}\} = p_{i},E(Y) = \sum_{i}^{}{g(x_{i})p_{i}}$；

$X$為連續型：$X\sim f(x),E(Y) = \int_{- \infty}^{+ \infty}{g(x)f(x)dx}$

(2) $Z = g(X,Y)$;$\left( X,Y \right)\sim P\{ X = x_{i},Y = y_{j}\} = p_{{ij}}$; $E(Z) = \sum_{i}^{}{\sum_{j}^{}{g(x_{i},y_{j})p_{{ij}}}}$ $\left( X,Y \right)\sim f(x,y)$;$E(Z) = \int_{- \infty}^{+ \infty}{\int_{- \infty}^{+ \infty}{g(x,y)f(x,y)dxdy}}$

5.5 協方差

$Cov(X,Y) = E\left\lbrack (X - E(X)(Y - E(Y)) \right\rbrack$

5.6 相關係數

$\rho_{{XY}} = \frac{Cov(X,Y)}{\sqrt{D(X)}\sqrt{D(Y)}}$,$k$階原點矩 $E(X^{k})$;
$k$階中心矩 $E\left\{ {\lbrack X - E(X)\rbrack}^{k} \right\}$

性質：

(1)$\ Cov(X,Y) = Cov(Y,X)$

(2)$\ Cov(aX,bY) = abCov(Y,X)$

(3)$\ Cov(X_{1} + X_{2},Y) = Cov(X_{1},Y) + Cov(X_{2},Y)$

(4)$\ \left| \rho\left( X,Y \right) \right| \leq 1$

(5) $\ \rho\left( X,Y \right) = 1 \Leftrightarrow P\left( Y = aX + b \right) = 1$ ，其中$a > 0$

$\rho\left( X,Y \right) = - 1 \Leftrightarrow P\left( Y = aX + b \right) = 1$
，其中$a < 0$

5.7 重要公式與結論

(1)$\ D(X) = E(X^{2}) - E^{2}(X)$

(2)$\ Cov(X,Y) = E(XY) - E(X)E(Y)$

(3) $\left| \rho\left( X,Y \right) \right| \leq 1,$且 $\rho\left( X,Y \right) = 1 \Leftrightarrow P\left( Y = aX + b \right) = 1$，其中$a > 0$

$\rho\left( X,Y \right) = - 1 \Leftrightarrow P\left( Y = aX + b \right) = 1$，其中$a < 0$

(4) 下面 5 個條件互為充要條件：

$\rho(X,Y) = 0$ $\Leftrightarrow Cov(X,Y) = 0$ $\Leftrightarrow E(X,Y) = E(X)E(Y)$ $\Leftrightarrow D(X + Y) = D(X) + D(Y)$ $\Leftrightarrow D(X - Y) = D(X) + D(Y)$

注：$X$與$Y$獨立為上述 5 個條件中任何一個成立的充分條件，但非必要條件。

6. 數理統計的基本概念

6.1 基本概念

總體：研究物件的全體，它是一個隨機變數，用$X$表示。

個體：組成總體的每個基本元素。

簡單隨機樣本：來自總體$X$的$n$個相互獨立且與總體同分布的隨機變數$X_{1},X_{2}\cdots,X_{n}$，稱為容量為$n$的簡單隨機樣本，簡稱樣本。

統計量：設$X_{1},X_{2}\cdots,X_{n},$是來自總體$X$的一個樣本，$g(X_{1},X_{2}\cdots,X_{n})$）是樣本的連續函式，且$g()$中不含任何未知引數，則稱$g(X_{1},X_{2}\cdots,X_{n})$為統計量。

樣本均值：$\overline{X} = \frac{1}{n}\sum_{i = 1}^{n}X_{i}$

樣本方差：$S^{2} = \frac{1}{n - 1}\sum_{i = 1}^{n}{(X_{i} - \overline{X})}^{2}$

樣本矩：樣本$k$階原點矩：$A_{k} = \frac{1}{n}\sum_{i = 1}^{n}X_{i}^{k},k = 1,2,\cdots$

樣本$k$階中心矩：$B_{k} = \frac{1}{n}\sum_{i = 1}^{n}{(X_{i} - \overline{X})}^{k},k = 1,2,\cdots$

6.2 常用分佈

$\chi^{2}$分佈：$\chi^{2} = X_{1}^{2} + X_{2}^{2} + \cdots + X_{n}^{2}\sim\chi^{2}(n)$，其中$X_{1},X_{2}\cdots,X_{n},$相互獨立，且同服從$N(0,1)$

$t$分佈：$T = \frac{X}{\sqrt{Y/n}}\sim t(n)$ ，其中$X\sim N\left( 0,1 \right),Y\sim\chi^{2}(n),$且$X$，$Y$ 相互獨立。

$F$分佈：$F = \frac{X/n_{1}}{Y/n_{2}}\sim F(n_{1},n_{2})$，其中$X\sim\chi^{2}\left( n_{1} \right),Y\sim\chi^{2}(n_{2}),$且$X$，$Y$相互獨立。

分位數：若$P(X \leq x_{\alpha}) = \alpha,$則稱$x_{\alpha}$為$X$的$\alpha$分位數

6.3 正態總體的常用樣本分佈

(1) 設$X_{1},X_{2}\cdots,X_{n}$為來自正態總體$N(\mu,\sigma^{2})$的樣本，

$\overline{X} = \frac{1}{n}\sum_{i = 1}^{n}X_{i},S^{2} = \frac{1}{n - 1}\sum_{i = 1}^{n}{{(X_{i} - \overline{X})}^{2},}$則：

$\overline{X}\sim N\left( \mu,\frac{\sigma^{2}}{n} \right){\ \ }$或者$\frac{\overline{X} - \mu}{\frac{\sigma}{\sqrt{n}}}\sim N(0,1)$
$\frac{(n - 1)S^{2}}{\sigma^{2}} = \frac{1}{\sigma^{2}}\sum_{i = 1}^{n}{{(X_{i} - \overline{X})}^{2}\sim\chi^{2}(n - 1)}$
$\frac{1}{\sigma^{2}}\sum_{i = 1}^{n}{{(X_{i} - \mu)}^{2}\sim\chi^{2}(n)}$

4)${\ \ }\frac{\overline{X} - \mu}{S/\sqrt{n}}\sim t(n - 1)$

6.4 重要公式與結論

(1) 對於$\chi^{2}\sim\chi^{2}(n)$，有$E(\chi^{2}(n)) = n,D(\chi^{2}(n)) = 2n;$

(2) 對於$T\sim t(n)$，有$E(T) = 0,D(T) = \frac{n}{n - 2}(n > 2)$；

(3) 對於$F\tilde{\ }F(m,n)$，有 $\frac{1}{F}\sim F(n,m),F_{a/2}(m,n) = \frac{1}{F_{1 - a/2}(n,m)};$

(4) 對於任意總體$X$，有 $E(\overline{X}) = E(X),E(S^{2}) = D(X),D(\overline{X}) = \frac{D(X)}{n}$

有時會發現學習是一件很快樂的事情比一直跑步容易多了不是嘛

分佈	概率密度函式(PDF)或者概率質量函式(PMF)	均值	方差
\(Bernoulli(p)\)(伯努利分佈)	\(\left\{\begin{array}{ll}{p} & {\text { if } x=1} \\ {1-p} & {\text { if } x=0}\end{array}\right.\)	\(p\)	\(p(1-p)\)
\(Binomial(n,p)\)(二項式分佈)	\(\left(\begin{array}{l}{n} \\ {k}\end{array}\right) p^{k}(1-p)^{n-k}\) 其中：\(0 \leq k \leq n\)	\(np\)	\(npq\)
\(Geometric(p)\)(幾何分佈)	\(p(1-p)^{k-1}\) 其中：\(k=1,2,\cdots\)	\(\frac{1}{p}\)	\(\frac {1-p}{p^2}\)
\(Poisson(\lambda)\)(泊松分佈)	\(e^{-\lambda} \lambda^{x} / x !\) 其中：\(k=1,2,\cdots\)	\(\lambda\)	\(\lambda\)
\(Uniform(a,b)\)(均勻分佈)	\(\frac{1}{b-a}\) 存在\(x \in (a,b)\)	\(\frac{a+b}{2}\)	\(\frac{(b-a)^2}{12}\)
\(Gaussian(\mu,\sigma^2)\)(高斯分佈)	\(\frac{1}{\sqrt{2 \pi} \sigma} e^{-\frac{1}{2 \sigma^{2}}(x-\mu)^{2}}\)	\(\mu\)	\(\sigma^2\)
\(Exponential(\lambda)\)(指數分佈)	\(\lambda e^{-\lambda x}\) \(x\geq0,\lambda>0\)	\(\frac{1}{\lambda}\)	\(\frac{1}{\lambda^2}\)

機器學習基礎——概率論

1. 概率的基本要素

1.1 事件的關係與運算

1.2 運算律

1.3 德$\centerdot $摩根律

1.4 完全事件組

1.5 概率的基本公式

1.6.事件的獨立性

1.7 獨立重複試驗

1.8 重要公式與結論

2. 隨機變數

2.1 累積分佈函式

2.2 概率質量函式

2.3 概率密度函式

2.4 期望

2.5 方差

2.6 一些常見的隨機變數

2.7 重要公式與結論

3. 兩個隨機變數

3.1 聯合分佈和邊緣分佈

3.2 聯合概率和邊緣概率質量函式

3.3 聯合概率和邊緣概率密度函式

3.4 條件概率分佈

3.5 貝葉斯定理

3.6 獨立性

3.7 期望和協方差

3.8 常見的二維隨機變數

3.9 重要公式與結論

4. 多個隨機變數

4.1 基本性質

4.2 隨機向量

4.3 多元高斯分佈

5. 隨機變數的數字特徵

5.1 數學期望

5.2 方差：

5.3 標準差：

5.4 隨機變數函式的數學期望

5.5 協方差

5.6 相關係數

5.7 重要公式與結論

6. 數理統計的基本概念

6.1 基本概念

6.2 常用分佈

6.3 正態總體的常用樣本分佈

6.4 重要公式與結論

相關推薦