1. 程式人生 > >二、時間序列的預處理

二、時間序列的預處理

一般情況下,拿到一個觀察值序列之後,首先要對它的平穩性純隨機性進行檢驗,這兩個重要的檢驗稱為序列的預處理。根據檢驗的結果可以將序列分為不同的型別,對不同型別的序列我們會採用不同的分析方法。

一、平穩性檢驗

1、特徵統計量

(1)概率分佈

          數理統計的基礎知識告訴我們分佈函式或者密度函式能夠完整地描述一個隨機變數的統計特徵。同樣,一個堆積變數族{Xt} 的統計特徵也完全由它們的聯合分佈函式或聯合密度函式決定。

           當由於在實際應用中,要想得到序列的聯合概率分佈幾乎是不可能的,而且聯合概率分佈通常涉及非常複雜的數學運算,這些原因導致我們很少直接使用聯合概率分佈進行時間序列分析。

(2)特徵統計量

         一個更簡單的、更實用的描述時間序列統計特徵的方法是研究該序列的低階矩,特別是均值、方差、自協方差和自相關係數,它們也被稱之為特徵統計量。  

        儘管這些特徵統計量不能描述隨機序列全部的統計性質,但由於它們概率意義明顯,易於計算,而且往往能代表隨機序列的主要概率特徵,所以我們對時間序列進行分析,主要就是通過分析這些特徵量的統計特性,推斷出隨機序列的性質。 
1.均值 
2.方差 
3.自協方差函式(autocovariance function)和自相關係數(autocorrelation coefficients)

(3)自協方差函式與協方差函式的區別

        通常的協方差函式和自相關係數度量的是兩個不同事件彼此之間的相互影響程度,而協方差函式和自相關係數度量的是同一事件在兩個不同時期之間的相關程度,形象地講就是度量自己過去的行為對自己現在的影響。

2.平穩時間序列的定義 

   根據限制條件的嚴格程度,分為嚴平穩時間序列和寬平穩時間序列 

(1)嚴平穩(strictly stationary)

         一種條件比較苛刻的平穩性定義,它認為只有當序列所有的統計性質都不會隨著時間的推移而發生變化時,該序列才被認為平穩。隨機變數族的統計性質由它們的聯合概率分佈族決定 。
        在實際中,要想獲得隨機序列的聯合分散式一件非常困難的事,所以嚴平穩時間序列通過只有理論意義,在實踐中更多的是條件比較寬鬆的平穩時間序列。

(2)寬平穩(week stationary)

      使用序列的特徵統計量來定義一種平穩性。它認為序列的統計性質主要由它的低階矩決定,所以只要保證序列低階平穩(二階),就能保證序列的主要性質近似穩定。 

在實際應用中,研究中最多的是寬平穩隨機序列,以後見到平穩隨機序列,如果不加特殊註明,指的都是寬平穩隨機序列。如果序列不滿足平穩條件,就稱為非平穩序列。

        要證明某個隨機過程是否是寬平穩過程(廣義平穩過程)就必須的滿足以上定義中的三個條件:

(1)E[X(t)]=μ(常數)

(2)E[X(t) X(t + h)]= γ( h ) ;(自協方差函式只與時間間隔有關,與起始點無關)

(3)E[X2(t)< +∞ 。

嚴平穩比寬平穩條件嚴格。嚴平穩是對序列聯合分佈的要求,以保證序列所有的統計特徵都相同;而寬平穩只要求序列二階平穩,對於高於二階的矩沒有任何要求。所以通常情況下,嚴平穩序列也滿足寬平穩條件,而寬平穩序列不能反推平穩成立。

        這個不是絕對的,兩種情況都有特例:

         比如服從可惜柯西分佈的嚴平穩序列就不是寬平穩序列,因為它不存在一、二階矩,所以無法驗證它二階平穩。嚴格地講,只有存在二階矩的嚴平穩序列才能保證它一定也是寬平穩序列。

3.平穩時間序列的統計性質

(1)常數均值

(2)自協方差函式和自相關係數只依賴於時間的平移長度而與時間的起始點無關

4.平穩性的檢驗

      一種是根據時序圖和自相關圖顯示的特徵做出判斷的圖檢驗方法;一種是構造檢驗統計量進行假設檢驗的方法。 圖檢驗是一種操作簡便,運用廣泛的平穩性判別方法,它的缺點是判別結論帶有很強的主觀色彩。所以最好能用統計檢驗的方法加以輔助判斷。目前最常用的平穩性檢驗方法是單位根檢驗(unit root test)。

(1)時序圖檢驗 

根據平穩時間序列均值、方差Wie常數的性質,平穩時間序列的時序圖應該是顯示出該數列始終在一個常數值附近隨機波動,而且波動的範圍有界的特點。

(2)自相關圖檢驗

       自相關圖就是一個平面二維座標垂線圖,一個座標軸表示延遲時期數,另一個座標軸表示自相關係數,通過以垂線表示自相關係數的大小。

       平穩時間序列通常具有短期相關性,該性質使用自相關係數來描述就是隨著延遲期數k的增加,平穩時間序列的自相關係數ρ會很快地衰減為0;反之,非平穩序列的自相關係數ρ衰減向0的速度通常會比較慢,這就是利用自相關圖進行平穩性判斷的標準。

二、純隨機性檢驗

     當拿到一個觀察值序列之後,首先是判斷它的平穩性,通過平穩性檢驗,序列可以分為平穩序列和非平穩序列兩大類。

      對於非平穩序列,由於它不具有二階矩平穩的性質,所以對它的統計分析要周折一些,通常要進行進一步的檢驗、變換或處理之後,才能確定適當的擬合模型。 
       如果序列平穩,情況就簡單多了,我們有一套非常成熟的平穩序列建模方法。但是,並不是所有的平穩序列都值得建模。只有那些序列值之間具有密切的相關關係,歷史資料對未來的發展有一定影響的序列,才值得我們花時間去挖掘歷史資料中的有效資訊,用來預測序列未來的發展。 
        如果序列值彼此之間的任何相關性,那就意味著該序列是一個沒有記憶的序列,過去的行為對將來的發展沒有任何的影響,這種序列我們稱之為純隨機序列。從統計分析的角度而言,純隨機序列是沒有任何分析價值的序列。 

1、純隨機性檢驗

        純隨機性檢驗也稱為白噪聲檢驗,是專門用來檢驗序列是否為隨機序列的一種方法。如果一個序列是純隨機序列,那麼它的序列值之間應該是沒有任何相關關係。

2、假設條件

由於序列之間的變異性是絕對的,而相關性是偶然的,所以假設條件如下確定:

  • 原假設:延遲期數小於或等於m期的序列值之間相互獨立。
  • 備選假設:延遲期數小於或等於m期的序列值之間有相關性。

3、檢驗統計量

(1)Q統計量

Box和Pierce推匯出了Q統計量

根據正態分佈和卡方分佈之間的關係,我們很容易推匯出Q統計量近似服從自由度為m的卡方分佈:

當Q統計量大於卡方分佈的分位點,或者統計量的P值小於a時候,可以以1-a的置信水平拒絕原假設,認為該序列為非白噪聲序列,否則,接受原假設,認為序列為純隨序列。

(2)LB統計量

在實際應用中人們發現Q統計量在大樣本長夜(n很大的場合)檢驗效果很好,但是在小樣本場合就不太精確,為了彌補這一缺陷,Box和Ljong又推匯出LB統計量

Box和Ljung證明LB統計量同樣近似的服從自由度為m的卡方分佈。
實際上LB統計量就是Box和Pierce的Q統計量的修正,所以人們習慣上吧他們統稱為Q統計量,分別紀委QNP和QLB統計量,在各種檢驗場合普遍採用的Q統計量通常指的就是LB統計量。

注意:一般情況下我們只檢驗前6期和前12期的Q統計量和LB統計量就可以直接判斷該序列是否為白噪聲序列。這是因為,

 1、平穩序列通常具有短期相關性,如果序列之間存在明顯的相關關係,通常指存在於延遲時期比較短的序列值之間,所以,如果一個平穩序列的短期延遲值之間不存在顯著的相關關係,通常長期之間就更不會存在顯著的相關關係。

2、假如一個平穩序列顯示出短期顯著的短期相關性,那麼該序列就一定不是白噪聲序列,我們就可以繼續對該序列進行相關性分析。