論文筆記:時間序列分析
阿新 • • 發佈:2018-10-31
論文筆記:Causal Inference on EventSequences
論文綜述
- 解決的問題:兩個不同的序列xn與yn,是否能斷定他們相互關聯,或者說存在因果關係。
- 依託的主要知識:概率論
名詞解釋:
- 格蘭傑因果關係 Granger causality
- 統計學上的因果關係:從統計的角度,因果關係是通過概率或者分佈函式的角度體現出來的:在宇宙中所有其它事件的發生情況固定不變的條件下,如果一個事件A的發生與不發生對於另一個事件B的發生的概率(如果通過事件定義了隨機變數那麼也可以說分佈函式)有影響,並且這兩個事件在時間上有先後順序(A前B後),那麼我們便可以說A是B的原因。
- 熵與最優編碼
- 最優編碼長度就是熵
- lower entropy corresponds to better compression
- Transfer Entropy:
+它是一種基於概率分佈,夏農熵,統計的方法得出時間序列間因果性的方法
- regret
- 最大似然函式
- SNML
論文方法描述
- 兩個假定:
- 原因發生在結果前
- 原因擁有影響未來值的資訊
步驟:
- 編碼長度的比較:
- 根據編碼長度確定因果
- 設定閾值
- 如何確定可用的概率(存在問題:模型給錯結果一定錯)
- SNML定義式子:
- 用於二進位制資料
- Conditional Compression(在引入yn,xn兩個序列的時候該如何處理這個問題)
- 簡單來說,根據y(用XOR)構造出不同的序列來檢視哪個序列的熵最小,找到規律然後按照規律帶入相關量
- 把上述所有序列代入計算
- 如圖所示,對於1的預測,選取的序列1越多,熵越小,對於0的預測,選取的1越少,熵越少。
- 上述式子要帶入哪些值就知道了
實驗:生成資料的實驗和水文,氣溫的實驗。
- 總結:這篇論文的核心思想在於提高對於有噪音的資料的序列分析,並且不依賴於lag這個引數,但於此同時,這篇論文的限制也很明顯,只能處理離散資料。
- 疑問:
- 選取傳遞熵得到的結果做對比,效果可信嗎?上圖是三種方法對比,第一行是作者的方法,準確率100%,第二種是作者對比的方法,只有39%的準確率,而第三種才是常用的格蘭傑因果關係檢驗方法,有70%的準確率(目前只是初步處理,還有可能提高)
- 文章中始終沒有說明怎麼處理所謂的閾值,而格蘭傑因果關係檢測是可以判斷顯著性程度的。
- 文章中只是在確定有因果關係的資料中分析誰是原因誰是結果,但是如果兩者沒有因果關係呢?