1. 程式人生 > >七大統計模型

七大統計模型

一、多元迴歸 

1、概述: 

在研究變數之間的相互影響關係模型時候,用到這類方法,具體地說:其可以定量地描述某一現象和某些因素之間的函式關係,將各變數的已知值帶入迴歸方程可以求出因變數的估計值,從而可以進行預測等相關研究。

 

 2、分類  

分為兩類:多元線性迴歸和非線性線性迴歸;

其中非線性迴歸可以通過一定的變化轉化為線性迴歸,比如:y=lnx 可以轉化為y=u    u=lnx來解決;

3、 注意事項 

  在做迴歸的時候,一定要注意兩件事: 

(1) 迴歸方程的顯著性檢驗 

(2) 迴歸係數的顯著性檢驗 

檢驗是很多學生在建模中不注意的地方,好的檢驗結果可以體現出你模型的優劣,這點一定要注意。 

 

二、聚類分析 

1、概述:

聚類分析指將物理或抽象物件的集合分組為由類似的物件組成的多個類的分析過程。

 

2、分類  

聚類主要有三種: 

(1) K均值聚類

(2) 系統聚類

(3)二階聚類

類的距離計算方法: 

(1) 最短距離法 

(2) 最長距離法 

(3) 中間距離法

(4) 重心法

(5) 類平均法 

(6) 可變類平均法 

(7) 可變法 

(8) 利差平均和法 

3、注意事項 

在樣本量比較大時,要得到聚類結果就顯得不是很容易,這時需要根據背景知識和相關的其他方法輔助處理。 

還需要注意的是:如果總體樣本的顯著性差異不是特別大的時候,使用的時候也要注意! 

 

三、分類 

1、概述 

分類是一種典型的有監督的機器學習方法,其目的是從一組已知類別的資料中發現分類模型,以預測新資料的未知類別。 

這裡需要說明的是:預測和分類是有區別的,預測是對資料的預測,而分類是類別的預測。 

2、常用分類模型:

(1)神經網路

(2)決策樹

3、注意事項 

A. 神經網路適用於下列情況的分類: 

(1) 資料量比較小,缺少足夠的樣本建立數學模型

(2) 資料的結構難以用傳統的統計方法來描述

(3) 分類模型難以表示為傳統的統計模型 

B. 神經網路的優點: 

分類準確度高,並行分佈處理能力強, 對噪聲資料有較強的魯棒性和容錯能力,能夠充分逼近複雜的非線性關係,具備聯想記憶的功能等。 

C. 神經網路缺點: 

需要大量的引數,不能觀察中間學習過程,輸出結果較難解釋,會影響到結果的可信度,需要較長的學習時間,當資料量較大的時候,學習速度會制約其應用。 

 

四、判別分析 

1、概述

判別分析是基於已知類別的訓練樣本,對未知類別的樣本判別的一種統計方法,也是一種有監督的學習方法,是分類的一個子方法!

 

具體是:在研究已經過分類的樣本基礎上,根據某些判別分析方法建立判別式,然後對未知分類的樣本進行分類!

 2、判別方法 

根據判別分析方法的不同,可分為下面幾類:

(1) 距離判別法 

(2) Fisher判別法 

(3) Bayes判別法 

(4) 逐步判別法 

比較常用的是Bayes判別法和逐步判別法 

3、 注意事項: 

判別分析主要針對的是有監督學習的分類問題。這裡重點注意其優缺點:

(1) 距離判別方法簡單容易理解,但是它將總體等概率看待,沒有差異性; 

(2) Bayes判別法有效地解決了距離判別法的不足,即:其考慮了先驗概率——所以通常這種方法在實際中應用比較多! 

(3) 判別分析要求給定的樣本資料必須有明顯的差異,在進行判別分析之前,應首先檢驗各類均值是不是有差異,如果檢驗後某兩個總體的差異不明顯,應將這兩個總體合為一個總體,再由剩下的互不相同的總體重現建立判別分析模型。 

(4)Fisher判別法和bayes判別法的使用要求:兩者對總體的資料的分佈要求不同,Fisher要求對資料分佈沒有特殊要求,而bayes則要求資料分佈是多元正態分佈,但實際中卻沒有這麼嚴格!

 

五、主成分分析 

1、概述

主成分分析是一種降維數的數學方法,具體就是,通過降維技術將多個變數化為少數幾個主成分的統計分析方法。

在建模中,主要用於降維,系統評估,迴歸分析,加權分析等等。 

2、分類(無) 

3、注意事項 

在應用主成分分析時候,應該注意: 

(1) 綜合指標彼此獨立或者不相互干涉

(2) 每個綜合指標所反映的各個樣本的總資訊量等於對應特徵向量的特徵值。通常要選取的綜合指標的特徵值貢獻率之和應為80%以上 

(3) 其在應用上側重於資訊貢獻影響力的綜合評價 

(4) 當主成分因子負荷的符號有正也有負的時候,綜合評價的函式意義就不明確! 

 

六、因子分析 

1、概述

因子分析是將變數總和為數量較少的幾個因子,是降維的一種數學技術! 

它和主成分分析的最大區別是:其是一種探索性分析方法,即:通過用最少個數的幾個不可觀察的變數來說明出現在可觀察變數中的相關模型,它提供了一種有效的利用數學模型來解釋事物之間的關係,體現出資料探勘的一點精神! 

2、分類

R型因子分析,即對變數的研究,此為常用

Q型因子分析,即對樣本的研究 

3、因子分析和主成分分析的區別和聯絡

(1) 兩者都是降維數學技術,前者是後者的推廣和發展 

(2) 主成分分析只是一般的變數替換,其始終是基於原始變數研究資料的模型規律;而因子分析則是通過挖掘出新的少數變數,來研究的一種方法,有點像資料探勘中的未知關聯關則發現!

 

七、時間序列

 1、概述 

時間序列預測法是一種定量分析方法,它是在時間序列變數分析的基礎上,運用一定的數學方法建立預測模型,使時間趨勢向外延伸,從而預測未來市場的發展變化趨勢,確定變數預測值。 

基本特點是:假定事物的過去趨勢會延伸到未來;預測所依據的資料具有不規則性;撇開市場發展之間的因果關係。

 

 2、分類 

時間序列的變動形態一般分為四種:

  • 長期趨勢變動

  • 季節變動

  • 迴圈變動

  • 不規則變動

 方法分類: 

(1) 平均數預測

(2) 移動平均數預測

(3) 指數平滑法預測

(4) 趨勢法預測

(5) 季節變動法

3.注意事項 

(1)季節變動法預測需要籌集至少三年以上的資料 

(2)移動平均法在短期預測中較準確,長期預測中效果較差; 

(3)移動平均可以消除或減少時間序列資料受偶然性因素干擾而產生的隨機變動影響。