1. 程式人生 > 實用技巧 >資料分析logistic迴歸與時間序列

資料分析logistic迴歸與時間序列

logistics迴歸

1.影響關係研究是所有研究中最為常見的。
2.當y是定量資料時,線性迴歸可以用來分析影響關係。
3.如果現在想對某件事情發生的概率進行預估,比如一件衣服的是否有人想購買? 這裡的Y是“是否願意購買”,屬於分類資料,所以不能使用迴歸分析。
4.如果Y為定類資料,研究影響關係,選擇logistics迴歸分析。

啞變數

1.啞變數(dummy var iable)  也稱虛擬變數。
2.用數字程式碼表示的定性自變數。
3.啞變數可有不同的水平:
   (1).只有兩個水平的啞變數——性別 男、女
   (2).有兩個以上水平的啞變數——貸款企業的型別(家電,醫藥,其他) 啞變數的取值為0,1
4.當定性變數只有兩個水平時,可在迴歸中引入一個啞變數,比如性別,一般而言,如果定性自變數有k個水平,需要在迴歸中模型中引進k-1個啞變數。

logistic迴歸分析

1.logistic迴歸分析也用於研究影響關係,即x對於Y的影響情況。Y為定類資料,X可以是定量資料或定類資料。
2.logistic迴歸和線性迴歸最大的區別在於,Y的資料型別。線性迴歸分析的因變數Y屬於定量資料,而logistic迴歸分析的因變數Y 屬於分類資料

log it(p) = α + β₁X₁ +…+βmXm
.因變數logit(p)跟概率值p的關係
1.若概率大於0.5%,且小於或等於1,則因變數對應的是分類值1,則因變數對應的是分類值1,即"是"和"發生"。
2.若概率小於0.5%,且大於或等於0,則因變數對應的是分類值0,即“非”和“未發生”

logistic分類

1.二元logistic迴歸分析
  ·如果Y值僅兩個選項,分別是有和無之類的分類資料,選擇二元logistic迴歸分析。
2.多元logistic迴歸分析
·Y值的選型有多個,並且選項之間沒有大小對比關係,則可以使用多遠logistic迴歸分析。
3.多元有序logistics迴歸分析
·Y值的選項有多個,並且選項之間可以對比大小關係,選項具有對比意義,應該使用多元有序logistic迴歸分析。

Logistic迴歸分析型別    因變數Y值選項舉例         說明
二元logistic迴歸分析   有和無,願意和不願意       分析資料,並且僅為兩類

多元無序logistic迴歸分析  一線城市,二線城市和三線城市   分類資料,並且超過兩類,類別之間沒有對比意義

多元有序logistic迴歸分析  不願意,無所謂,意願     分類資料,並且超過兩類,類別之間具有對比意義

logistic迴歸的使用場景

1.logistic迴歸分析可用於估計某個事件發生的可能性,也可分析某個問題的影響因素有哪些。
· 醫學研究中,logistic迴歸常用於對某種疾病的危險因素分析,像是分析年齡、吸菸、飲酒、飲食情況等是否屬於2型糖尿病的危險因素。
問卷研究中,logistic迴歸常被用於分析非量表題上,像是將樣本基本背景資訊作為x,購買意願作為Y,分析性別、年齡、家庭條件是否會影響購買意願。
2.其中,二元logistic迴歸分析的使用頻率最高

logistic迴歸案例

模型係數:
     顯著性: 新的3個變數模擬程度和不含變數的模型結果具有顯著性
模型概要:
	-2對數擬然(誤差平方和): 值越少,模型效果越好
    R判斷模型的好壞,需要經驗對比,再多個logistic迴歸模型下,判斷擬合程度
分類表(交叉表)
	續約為13,不續約為6,對應百分比
    
 方程中的變數
   R對應迴歸係數,其他變數不變的情況下,此變數變動對logit(p)產生的改變數
   瓦爾德 校驗統計量的演算法,根據同表中的顯著性判斷一個自變數是否應該在模型中 

概率估值

logit(p)=2.208+-0.32*註冊時長+-0.29*營業收入+—0.47*成本

時間序列

1.時間序列分析(Time-Series Analysis)
2.是將某種現象某一個統計指標在不同時間上的各種數值,按時間先後順序排列而形成的序列
3.時間序列法是一種定量預測方法,亦稱簡單外延方法,在統計學中作為一種常用的預測手段被廣泛應用。

時間序列分解因素

長期趨勢變化:1.受某種疾病因素的影響,資料依時間變化是表現為一種確定傾向,它按某種規則穩步地增長和下降
			2.使用的分析方法有:移動平均法、指數平滑法、模型擬合法等。
季節性週期變化:1.受季節更替因素影響,序列依一固定週期規則性的變化,又稱商業迴圈。
			 2.採用的方法:季節指數。
迴圈變化:週期不固定的波動變化
隨機性變化:由許多不確定因素引起的序列變化

時間序列分解因素的原因

1.把因素從時間序列中分解出來後,就能克服其他因素的影響,僅考量某一種因素對時間序列的影響
2.分解這四種因素後,也可以分析他們之間的相互作用,以及它們對時間序列 的綜合影響
3.當去掉某些因素後,就可以更好地進行時間序列之間的比較,從而更加客觀地反映事物變化發展規律
4.分解這些因素後的序列可以用於建立迴歸模型,從而提高預測精度。

時間序列分析

分類                          分析方法
確定性變化分析         趨勢變化分析、週期變化分析、迴圈變化分析
隨機性變化分析         有AR、MA、ARMA模型

時間序列分析特徵

1.時間序列分析法是根據過去的變化趨勢預測未來的發展,它的前提是假定事物的過去延續到未來。
	·時間序列分析,正是根據客觀事物發展的連續規律性,運用過來的歷史資料,通過統計分析,進一步推測未來的發展趨勢,事物的過去會延續到未來這個假設前提包含兩層含義:一是不會發生突然的跳躍變化,是以相對小的步伐前進,二是過去和當前的現象可能表明當前和將來活動的發展變化趨向。這就決定了在一一般情況下,時間序列分析法對於短、近期預測比較顯著,但如眼神到更遠的將來,就會出現很大的侷限性,導致預測值偏離實際較大而使決策失誤。

時間序列分析

1.時間序列資料變動存在著規律性與不規律性
	·時間序列中的每個觀察值大小,是影響變化的各種不同因素在同一時刻發生作用的綜合結果。從這些影響因素髮生作用的大小和方向變化的時間特性來看,這些因素造成的時間序列資料的變動分為四種類型。
    ·(1)趨勢性:某個變數隨著時間進展或自變數變化,呈現一種比較緩慢而長期的持續上升、下降、停留的同性質變動趨向,但變動幅度可能不相等。
    ·(2)間期性:某因素由於外部影響隨著自然季節的交替出現高峰與低谷的規律。
    ·(3)隨機性:個別為隨機變動,整體呈統計規律。
    ·(4)綜合性:實際變化情況是幾種變動的疊加或組合。預測時設法過濾除去不規則變動,突出反映趨勢性和週期性變動。

時間序列分析模型

1.加法模型:四個因素相互獨立,即4個因素可以直接疊加而形成
	· Y=T+S+C+I
    	·(Y,T計量單位相同的總量指標)(S,C,I對長期趨勢產生的或正或負的偏差)
2.乘法模型:四個因素相互影響,即綜合4個因素而形成的(常用模型)
	Y=T*S*C*I(Y,T計量單位相同的總量指標)(S,C,I對原數列指標增加或減少的百分比)

時間序列指標數值編制原則

1.保證序列中各期指標數值的可比性
	·時期長短最好一致
    ·總體範圍應該一致
    ·指標的經濟內容應該統一
    ·計算方法應該統一
    ·計算價格和計量單位可比

時間序列預測

1.時間序列預測主要是以連續性原理作為依據的。連續性原理是指客觀事物的發展具有合乎規律的連續性,事物發展是按照它本身固有的規律進行的。在一定條件下,只要規律賴以發生作用的條件不產生質的變化,則事物的基本發展趨勢在未來就還會持續下去。
2.時間序列預測就是利用統計技術與方法,從預測指標的時間序列中找出演變模式,建立數學模型,對預測指標的未來發展趨勢做出定量估計。

季節分解法

·因為時間序列中的長期趨勢反映了事物發展規律,是我們重點研究的物件;而迴圈變動由於其週期較長,也可以近似看作是長期趨勢的反映;不規則變動由於不容易測量,通常也不單獨分析;
·但是季節變動的存在有時會讓預測模型誤判其為不規則變動,從而降低模型的預測精度。所以,當一個時間序列具有季度變動時,在預測之前會先將它的季節因素進行分解。
·季節性分解(分析-預測-季節性分解)
·“季節性分解” 過程可將一個序列分解成一個季節性成分、一個組合趨勢和迴圈的成分和一個“誤差”成分。

季節分解法示例

·科學家想要對特定氣象站的臭氧層每月測量結果進行分析。目標是確定資料中是否存在任何趨勢。為了揭示真實趨勢,由於季節性影響,科學家首先需要考慮所讀取資料中的變異。可使用“季節性分解”過程來刪除任何系統性的季節性變化。然後對季節性調整序列執行趨勢分析。
·統計量:一組季節性因子
·資料:變數應為數值型。
·假設:變數不應包含任何內嵌的缺失資料,至少必須定義一個週期性日期成分。

季節分解法-時序圖作用

·瞭解資料的發展趨勢
·根據時序圖判斷時間序列屬於加法模型還是乘法模型
·判斷髮展趨勢:
 	·如果隨著時間的退役,序列的季節波動變d越來越大,則建議使用乘法模型
    ·如果序列的季節波動嫩夠基本維持恆定,則建議使用加法模型

季節分解法

·誤差序列(變數字首“ERR”),這些值是從時間序列中移除季節變動、長期趨勢和迴圈變動因素之後留下的序列
·季節因素校正後序列(變數字首是“CAS”) 這是移動原始序列中季節因素 之後的校正序列。
·季節因素(變數字首是"SAF"),這是從序列中分解出的季節因素,其中的 變數值根據季節週期的變動進行重複,並且與圖8-9的spss輸出視窗中的季節因子數值一樣。本例中,季節週期為12個月,所以,這些季節因子每12個月重複一次。
·長期趨勢和迴圈變動序列(變數字首是"STC"),這是原始序列中的長期趨勢和迴圈變動因素構成的序列。

季節分解法

·銷售額、誤差序列,季節因素校正後序列,長期趨勢和迴圈變動序列序列圖

·季節性因子序列圖

時間序列建模

·1.繪製間序列圖觀察趨勢
·2.分析序列平穩性進行平穩化
·3.時間序列建模分析
·4.模型評信與預測

時間序列

·"平穩性"指時間序列的所有統計性質都不會隨著時間的推移而發生變化。對於一個平穩的時間序列來說
·需要具有以下特徵:
	·均數和方差不限時間變化;
    ·自相關係數只與時間間隔有關,與所處的時間無關,"自相關係數",研究的是一個序列中不同的時期的相關係數,也就是對時間序列計算其當前期和不同滯後期的一系列相關係的。
·時間序列的平穩化目的
	·因為目前主流的時間序列預測方法都是針對平穩的時間序列進行分析的,但是實際上,我們遇到的大多數時間序列都不平穩。所以在分析時,首先需要識別序列的平穩性,並且把不平穩的序列轉換為平穩序列,一個時間序列值有被平穩化處理通過才能被控制和預測

建立傳統模型

建立傳統模型結果解析

最優時間序列模型為ARIMA(0,0,0)(0,0,0)最優時間序列及其引數,該模型可解讀為∶對移除季節因素的序列和包含季節因素的序列分別進行0階差分和0次移動平均,綜合兩個模型而構建出的時間序列模型。
ARIMA:求和自迴歸移動平均模型。ARIMA(p,d,q)(P,D,Q)
(p,d,q)是針對移除季節性變化後的序列。
pp,是指移除季節性變化後的序列所滯後的p期,通常取值為0或1,大於1的情況較少;

d,是指移除季節性變化後的序列進行了d階差分,通常取值為0、1或2;
q,是指移除季節性變化後的序列進行了q次移動平均,通常取值為0或1,很少會超過2。
(P,D,Q)是描述季節性變化。大寫的P,D,Q的含義相同,只是應用在包含季節性變化的序列上。

建立傳統模型結果解析

平穩R方:平穩序來評估模型擬合優度,它是將模型平穩部分與簡單均值模型相比較的測量,取正值時表示模型優於簡單均值模型,取負值時則相反。當時間序列含有趨勢或季節因素時,平穩統計量要優於普通統計量。由於原始序列具有季節變動因素,所以,平穩更具參考意義。平穩R方大於0,模型效果還不錯。

建立傳統模型結果解析

模型統計:該結果提供了更多的統計量用以評估時間序列模型的資料擬合效果。
平穩值大於0,"楊-博克斯Q(18)"統計量的顯著性(P值)=0.137,大於0.05【此處的顯著性(P值)>0.05是期望得到的結果】,則接受原假設,認為這個序列的殘差符合隨機序列分佈,同時也沒有離群值的出現,這些也都反映出資料的擬合效果還是可以接受的
預測趨勢圖顯示了實際值和預測值的趨勢,藍色的序列是原始值,如果在之前的【時間序列建模器】中設定了要預測的時間,則該圖會顯示出預測值。本例中,由於沒有設定要預測的時間,故不會出現未來的預測值。

時間序列預測的應用

RFM

RFM分析

·RFM模型是衡量客戶價值和客戶創利能力的重要工具和手段。
	·最近一次消費(Recency)
    `消費頻率(Frequency)
    ·消費金額(Monetary)
最近一次消費
最近一次消費意指上一次購買的時候——顧客上一次是幾時來店裡、上一次根據哪本郵購目錄購買東西、什麼時候買的車,或在你的超市買早餐最近的一次是什麼時候。 
理論上,上一次消費時間越近的顧客應該是比較好的顧客,對提供即時的商品或是服務也最有可能會有反應。營銷人員若想業績有所成長,只能靠偷取競爭對手的市場佔有率,而如果要密切地注意消費者的購買行為,那麼最近的一次消費就是營銷人員第一個要利用的工具。  
最近一次消費的功能不僅在於提供的促銷資訊而已,營銷人員的最近一次消費報告可以監督事業的健全度。月報告如果顯示上一次購買很近的客戶,(最近一次消費為1個月)人數如增加,則表示該公司是個穩健成長的公司;反之,如上一次消費為一個月的客戶越來越少,則是該公司邁向不健全之路的徵兆。 
最近一次消費報告是維繫顧客的一個重要指標。最近才買你的商品、服務或是光顧你商店的消費者,是最有可能再向你購買東西的顧客。再則,要吸引一個幾個月前才上門的顧客購買,比吸引一個一年多以前來過的顧客要容易得多。
消費頻率 :
消費頻率是顧客在限定的期間內所購買的次數。我們可以說最常購買的顧客,也是滿意度最高的顧客。如果相信品牌及商店忠誠度的話,最常購買的消費者,忠誠度也就最高。增加顧客購買的次數意味著從競爭對手處偷取市場佔有率,由別人的手中賺取營業額。 
根據這個指標,我們又把客戶分成五等分,這個五等分分析相當於是一個“忠誠度的階梯”(loyalty ladder),其訣竅在於讓消費者一直順著階梯往上爬,把銷售想像成是要將兩次購買的顧客往上推成三次購買的顧客,把一次購買者變成兩次的。
消費金額:
消費金額是所有資料庫報告的支柱,也可以驗證“帕雷託法則”(Pareto’s Law)
某超市一週顧客
人均消費水平 人數
400 103
140 298
30 587

如果你的預算不多,而且只能提供服務資訊給部分顧客,你會將資訊郵寄給哪些顧客?

RFM分析

R****(最近一次消費 ) F****(時間段內購買次數 M****(消費金額) 客戶型別
高價值客戶
重要發展客戶
重要保持客戶
重要挽留客戶
一般價值客戶
一般保持客戶
一般發展客戶
無價值客戶

RFM分析

RFM分析步驟

·計算RFM各項的值
·彙總RFM分值
·根據RFM分值對客戶分類

RFM資料結果

變數產稱 變數標籤
客戶ID 客戶標識
最近日期 最後一次交易日期
交易計數 交易總次數
金額 交易總金額
嶄新得分 RS∶最後一次交易的時間間
頻率得分 F_S∶交易總次數得分
消費金額得分 MS∶交易總金額得分
RFM 得分 RFM得分

RFM分箱計數