1. 程式人生 > >關於數理統計學及其與概率論之間聯絡的一些理解

關於數理統計學及其與概率論之間聯絡的一些理解

      作為一名非統計學科班出身的同學,之前只學習過浙大《概率論與數理統計》一書,當時只在意那些公式、理論,應付考試,甚至不知道書中講述了兩門學科的知識:數理統計學、概率論,更不明白二者之間有何關係,直到最近拜讀了陳希孺先生的《數理統計學教程》,這才開始有一些理解,於是打算先將自己的一些理解記錄下來,待日後理解加深之時,再回來修改。

      什麼是數理統計學

我們知道,數理統計學是要去研究資料的(當資料量達到一定程度,就又出現了大資料這樣一個方向),那麼它研究的資料有何不同呢?答案是資料必須帶有隨機性,這是它不同於其它資料處理方法的根本區別。數理統計學所研究資料的隨機性主要源自於兩點,一是受限於一些因素,我們無法獲取物件總體,一般只能選擇一定樣本,樣本的選擇就帶有隨機性;二是我們研究過程中的一些隨機誤差,比如一些未加考慮、無法控制、未知的因素,這二者就造成了資料的隨機性。基於這一點,可以對數理統計學做如下認識:數理統計學是數學到的一個分支,其任務是研究如何用有效的方法去收集、使用帶有隨機性影響的資料。

這裡提到了兩點,有效的收集資料有效的使用資料,如何去理解呢?

       有效的收集資料

怎樣的資料收集方式才能稱之為有效的呢?我們可以從兩個方面來衡量,一是收集的資料可以建立一個在數學上能處理、且儘可能簡單的模型,用以描述這些收集到的資料;二是收集的資料中應包含儘可能多的、與所研究問題相關的資訊。

       關於第一點,我是這樣理解的(這裡先提到了後面的一些概念)。我們一般會在一些假設前提下去建立一個數學模型來描述收集到的資料,但如果收集的資料分佈毫無一定規律可言,就很難去建立這樣一個數學模型,即使是我們花了九牛二虎之力建立了一個數學模型,那也不是一件值得高興的事情,因為我們花費了巨大的精力,更可怕的是我們建立的模型只能描述這一批樣本,換一批樣本可能就不適合用我們建立的模型來描述了(這種情況可以稱之為過擬合,最極端的情況就是用樣本本身去描述樣本)。此時我們就可以考慮一下我們收集的資料是不是有效的。

       關於第二點,則比較好理解,但是實際做起來則比較難。假如我們要分析一下某個地區居民的收入情況,而該地區有一片富人區,那麼我肯定不能大量在富人區內選擇樣本,那麼該如果抽取樣本呢?另外一個例子,在產品質量與反應溫度、壓力的關係中,若考慮溫度t_{1}t_{2}之間,壓力p_{1}p_{2}之間,那麼取多少個樣點好呢?前一個例子中的問題涉及到了數理統計學中的抽樣理論,後一個例子中的問題則涉及到數理統計學中的實驗設計。總之來說,在收集資料時,一定要圍繞待解決的問題進行,充分掌握研究物件的一些特性、規律。   

       有效的使用資料

收集資料,目的是對其進行研究,然後得到一些結論,這種“結論”在數理統計中稱為“推斷”,這個過程涉及到很多數學問題,需要建立一定的數學模型,並給定某些準則,才有可能去評價和比較種種統計推斷方法的優劣,這整個過程都成為使用資料的過程,但是如何評判是否是有效的使用?我想,還是得依據最終的結論是否與實際情況是否吻合來判斷,儘管這必須在資料使用之後才能知道,但是我們在使用資料過程中提出的假設條件、建立的數學模型、判定準則、推斷等應該是有依據的,是合理,這樣不失稱為有效的使用資料。

        以上的陳述確實不怎麼具體,但是使用資料的過程包含多個步驟,針對不同背景、不同目的,資料也有不同的使用方法,因此也難以提出一個統一的評判標準。

        數理統計學與概率論間的聯絡

  數理統計學所研究的資料是帶有隨機性的,而隨機性的研究正好是概率論的一大核心,這不可避免的將數理統計與概率論聯絡再一起。前面提到,收集到資料後,為了做出統計推斷,是需要建立一個數學資料模型的,這個模型一般就是資料的概率分佈,而概率分佈就是概率論的研究內容,因此說,概率論是數理統計的理論基礎,數理統計是概率論的一種應用

        舉個例子,正態分佈是概率論中的一種分佈模型,概率論研究的是正態分佈的數學性質,比如模型中引數(u,\sigma ^{2})對該模型的穩定、衰減性的影響等,但是在數理統計中,我們關心的是u,\sigma ^{2}表示的含義,比如女性的身高服從正態分佈,那麼u表示的就是平均身高,\sigma ^{2}可能表示的是父母身高、生活水平等對影響因素。

        數理統計學不以任何一種專門領域為研究物件,不論問題是物理學、化學、生物學、經濟學還是工程計數方面的,只要在安排實驗個處理資料過程中涉及一些一般性、共同的數學問題,都可以用到統計方法。這就要求我們解決一個統計問題是,不僅要掌握一定的概率論知識,而且還要對問題所涉及的領域知識有一定了解,這樣才能得到儘可能可靠的結論。

       數理統計學中一些重要基本概念理解

樣本分佈:樣本是隨機變數,其不會絕對地以某種結果出現。樣本的任何一種結果出現都是帶有一定概率的,這種概率分佈就稱為樣本分佈。樣本是受隨機性影響的,但是這種影響的具體方式如何,取決於觀察指標的性質、觀察手段和方法等,但所有的這些影響都可以總結到樣本分佈中去。

       總體分佈:從概念上來講,總體分佈應該指的是物件總體的分佈,但是實際中由於各種原因,我們很難、也沒有必要去獲取總體,因此可以將總體分佈定義為樣本大小為1時的樣本分佈。為什麼定義成樣本大小為1時的樣本分佈呢?這個問題我也不確定自己是否明白,這裡只說些自己的理解。當抽取n個樣本時,我們經常假設n個樣本之間是獨立,由於隨機性的存在,但實際上這個假設不一定成立,但是當抽取一個樣本時,其分佈肯定是獨立的,在一定的概率下,其分佈能呈現總體中任何一種情況。

       統計模型:統計模型即所抽樣本的分佈,也即是樣本分佈,也成為概率模型,例如常見的指數模型、正態模型等。統計模型只取決於樣本,是針對確定的樣本而言的,在明確了樣本的抽取方式、假定了一定提前條件後,獲取到了樣本,就能確定統計模型。由於隨機性,樣本分佈不止一種,而是一個分佈族,因此也可以說統計模型是樣本分佈族,這樣定義的意義在於:樣本分佈族,連同其引數空間,從總的方面給出了問題的範圍,分佈族越小,確定的程度就越高,一般更容易做出可靠的結論

       總之,統計模型就是樣本的分佈,而不管抽樣的目的是什麼,這裡也說明了很多領域的統計問題都可以抽樣出來,得到統一的數學模型,再依據樣本得到推斷結果,然後回到具體的領域去解讀這些推斷結果。 

       統計量:凡是由樣本計算出的量都成為統計量,或者說,統計量即是樣本的函式。我們在選用統計量時,最好是要保證統計量集中反應了與問題相關的資訊。

       抽樣分佈:由於統計量是從樣本得到,因此統計量也是有其概率分佈的,統計量的分佈稱為抽樣分佈。我們所做的推斷是由樣本得到,而樣本具有隨機性,因此我們得到的結果也具有隨機性。一個整體上看來較好的推斷方法也可能得到不好的結果,反之亦然。因此我們只能在整體上對一個推斷方法的優良性進行評判,這就取決於統計量的抽樣分佈。總之,想要了解一種特定的統計推斷方法的整體效能,就必須確定其抽樣分佈。例如,對正態分佈,我們用樣本均值\bar{X}去估計其均值u,那麼\bar{X}與u的偏差超過一定限度的可能性有多大,就可以用概率P(|\bar{X}-u |>c)表示,此時我們就要求出\bar{X}的抽樣分佈。

       最後,再來具體一點說明數理統計學的任務。R.A.Fisher把數理統計學的任務概括為3條:

      1.“specification”,即確定統計模型(即樣本分佈)

      2.“estimation”,即估計,用樣本估計模型中的未知引數

      3.“sampling distribution”,即抽樣分佈。