數字特征:方差
【引入】
有一批燈泡,知其平均壽命是 $E(X)=1000$ (小時)。僅由這一指標我們還不能判定這批燈泡的質量好壞。
事實上,有可能其中絕大部分燈泡的壽命都在950~1050小時;
也有可能其中約有一半是高質量的,它們的壽命大約有1300小時,另一半卻是質量很差的,其壽命大約只有700小時,
為要評定這批燈泡質量的好壞,還需進一步考察燈泡的壽命 $X$ 與其平均值 $E(X)=1000$ 的偏離程度。
若偏離程度較小,表示質量比較穩定。從這個意義上來說,我們認為質量較好。
前面也曾提到在檢驗棉花的質量時,既要註意纖維的平均長度,還要註意纖維長度與平均長度的偏離程度。
由此可見,研究隨機變量與其構成的偏離程度是必要的。
那麽,用怎樣的量去度量這個偏離程度呢?
容易看到 $E\{ |X-E(X)|\}$ 能度量隨機變量與其均值 $E(X)$ 的偏離程度,
但由於上式帶有絕對值,運算不方便,為運算方便起見,通常用量 $E\{ [X-E(X)]^2\}$ 來度量隨機變量X與其均值 $E(X)$ 的偏離程度。
【定義】
設 $X$ 是一個隨機變量,若 $E\{ [X-E(X)]^2\}$ 存在,則稱 $E\{ [X-E(X)]^2\}$ 為 $X$ 的方差,記為 $D(X)$ 或 $Var(X)$,
即
$$D(X)=Var(X)=E\{ [X-E(X)]^2\}\tag{2.1}$$
在應用上還引入量 $\sqrt{D(X)}$ ,記為 $\sigma (X)$ ,稱為標準差或均方差。
按定義,隨機變量 $X$ 的方差表達了 $X$ 的取值與其數學期望的偏離程度。
若 $D(X)$ 較小意味著 $X$ 的取值比較集中在 $E(X)$ 的附近,反之,若 $D(X)$ 較大則表示 $X$ 的取值較分散。
因此, $D(X)$ 是刻畫 $X$ 取值分散程度的一個量,它是衡量 $X$ 取值分散程度的一個尺度。
由定義知,方差實際上就是隨機變量 $X$ 的函數 $g(X)=(X-E(X))^2$ 的數學期望。
於是對於離散型隨機變量,按(1.3)式有
$$D(X)=\sum_{k=1}^{\infty}[x_k-E(X)]^2p_k\tag{2.2}$$
其中,$P\{ X=x_k\}=p_k,k=1,2,…$ 是 $X$ 的分布律
對於連續型隨機變量,按(1.4)式有
$$D(X)=\int_{-\infty}^{\infty}[x-E(X)]^2f(x)dx\tag{2.3}$$
其中 $f(x)$ 是 $X$ 的概率密度
隨機變量 $X$ 的方差可按下列公式計算
$$D(X)=E(X^2)-[E(X)]^2\tag{2.4}$$
證:
【例1】標準化變量
【例2】(離散)(0-1)分布
【例3】(離散)泊松分布
【例4】(連續)均勻分布
【例5】(連續)指數分布
方差的性質
1.設 $C$ 是常數,則 $D(C)=0$
證:
2.設 $X$ 是隨機變量,$C$ 是常數,則有 $D(CX)=C^2D(X),\qquad D(X+C)=D(X)$
證:
3.設 $X,Y$ 是兩個隨機變量,則有 $D(X+Y)=D(X)+D(Y)+2E\{ (X-E(X)(Y-E(Y)))\}$
特別,若 $X,Y$ 相互獨立,則有 $D(X+Y)=D(X)+D(Y)$
這一性質可以推廣到任意有限多個相互獨立的隨機變量之和的情況。
證:
4. $D(X)=0$ 的充要條件是 $X$ 以概率1取常數 $E(X)$ ,即 $P\{ X=E(X)\} =1$
證:
【例6】(離散)二項分布
【例7】(連續)正態分布
【例8】
【定理】切比雪夫不等式
證:
數字特征:方差