1. 程式人生 > >相關性、因果性之間的區別於聯絡,以及為什麼說相關性不是因果性?

相關性、因果性之間的區別於聯絡,以及為什麼說相關性不是因果性?

1. 相關性是什麼?

0x1:相關性的定義

X和癌症有關,Y和中風有關,Z和心臟病發作有關。這三句話描述了三個相關性,告訴我們彼此的兩個現象是相關的,卻沒說它們是如何關聯在一起的。

兩個變數相關的基本意思是,一個變數發生的變化與另一個變數發生的變化是隨時間同步關聯的。比如:

  • 孩子們的身高和年齡相關,因為隨著年齡的增長,孩子們的身高也會增長,他們會慢慢長大。

這些相關性滿足時間協變的普遍性原則,包括:

  • 概率分佈典型性:相關性存在於不同的樣本之間,一次測量多個不同年齡段的孩子,都存在顯性的相關性
  • 時序穩定性:相關性存在於不同樣本的不同時間段之間,在多個孩子的不同年齡段多次測量,都存在顯性的相關性

與此相反的是,身高和出生月份之間卻沒有長期的相關性,也就是說,即使我們改變了出生月份,我們的身高也並不會發生有規律的變化。

年齡和身高呈現明顯的正相關,而身高並沒有隨著出生年月的變化為變化,看起來就像一堆隨機放置的點 

需要特別注意的是,對變數的相關性觀測必須是時序同步的。舉個例子,如果我們只有一組考試成績的資料和一組學習時間的資料,而沒有將相應的考試成績和學習時間一一對應(同一時間的觀測),那就無法確定二者之間是否具有相關性。這是因為我們只能看到個體在每一個變數上的變化,而沒有看到這兩個變數是如何共同發生變化的。也就是說,我們無法得知更長的學習時間是否對應更高的考試成績。

相關性的主要用途注意就是預測。這意味著如果知道一個孩子的年齡,我們就能大致預測出他的身高,但如果我們只知道他們的出生月份,則無法預測出他的身高。

0x2:”變化“,相關性存在的必要但不充分條件

這個小節我們來討論一個問題,先拋開是否存在因果、異或是強相關或弱相關,相關性存在的最基本條件是什麼?這個問題關於到我們能夠對很多表面上存在相關性的結果進行科學證偽。

來看一個例子,你想知道如何寫申請才能獲批某項資助,所以就去找所有申請到這項資助的朋友,詢問他們自認為讓他們成功獲批的因素,從朋友們的反饋中你得出了下列這些分析結果,

  • 所有人在申請中都使用了 Times New Roman 字型
  • 有一半人說每頁至少有一個報表
  • 有三分之一的人在截止日期的前一天提交申請

這是否意味著在這些因素和資助成功獲批之間存在相關性呢?答案是否定的!

回到相關性的定義可以看到,相關性要求兩個變數是時序協變的。但在上面例子可以看到,雖然條件在發生變化,但是結果沒有發生變化(結果只有一個固定值),所以我們無法確定是否還有其他因素和結果有關。

相關性存在的必要但不充分條件是:兩個變數都要發生動態變化,且同時兩者之間存在一定程度的協變趨勢。如果兩個變數沒有共同發生改變,我們就無法找到它們之間的相關性。

 

2. 相關性的測量與解釋

0x1:相關性的測量指標

1、皮爾森相關係數 

皮爾森相關係數是指兩個變數(協方差、方差)如何通過各自的變化而發生共同的變化。皮爾森相關係數假定兩個變數之間是線性關係,即一個變數增大,另一個變數也會以相同的比例增大。

兩個變數  與  之間的皮爾遜相關係數計算公式為:

即兩個變數的協方差與兩個變數的標準差之積的比值。

比如我們調查了一些學生在期末考試前喝了多少杯咖啡,然後又記錄了他們的期末考試成績。如下圖所示,

兩個變數之間的相關性非常高,相關係數接近1,所以圖上的黑點似乎緊緊地聚在一條無形的直線兩側。

如果將兩個變數之間的關係都變得更弱一些,即每次喝同樣杯數的咖啡,但考試成績的變化更大,那麼這些黑點就會更為分散,變數之間的相關性也會更低。

變數之間這種不斷增加的變化的極限就是變成兩個完全不相關的變數,即相關係數為零,如下圖所示,

在這種情況下,我們將無法根據飲用的咖啡數量來對考試成績做出任何預測。

2、非線性相關係數度量

現實世界中並不一定都是線性變數,可能還存在更為複雜的非線性變數,因此同樣也存在更為複雜的非線性相關關係。

例如:

  • 如果不喝咖啡會讓人精神不振,並且會降低考試成績
  • 但是喝咖啡太多(超過一個臨界閾值)又會讓人神經過敏,並且影響考試發揮

我們將收集到的一些資料畫出來可能就是下圖的曲線,

在上圖中,人們和咖啡的杯數從0增加到5,考試成績是持續上升的,然後在5到10杯之間,考試成績隨著和咖啡杯數的增加而慢慢下降。

我們會發現在這個例子中,皮爾森相關係數剛好為零,但是這些資料卻呈現出了明顯的規律性。

同樣的現象在生物醫學(缺乏維生素或維生素服用劑量過多都可能導致健康問題)和金融(將稅率和收入聯絡在一起的拉弗曲線)等應用領域都存在。

0x2:對相關性的解釋

1、對相關性的過高解釋

1)認知偏差

我們之所以會找到一些錯誤的相關性,除了數學方面的原因之外,另一個比較重要的原因就是人們在觀察資料可能會發現一些虛假的規律,有些認知偏差會讓我們在無關的因素之間推斷出聯絡。

比如前面說的證實性偏差會使人們去尋找證據來證實他們的觀點。

如果你認為一種藥物會引起某種副作用,那你可能會去網上搜索其他吃了這個藥並且出現了副作用的病人。但是,這種做法意味著你是在忽略所有不能證實你的假設的資料,而不是尋找那些有可能讓你重新評估你的觀點的證據。

2)解釋性偏差

人們除了在尋找和使用證據時存在偏差,在解釋證據時也可能存在偏差。

如果一種新藥正在接受臨床測試,而一名醫生已經知道有病人正在服用這種藥,並且認為這個藥對病人是有幫助的,那麼在這種情況下,他就有可能會尋找跡象來證明這個 藥物是有效的。由於病人的很多指標都是主觀的(比如運動強度和疲勞程度等),這就有可能導致醫生對這些指標的估算存在偏差,並導致醫生推理出一個並不存在的相關性。

3)錯覺相關 - 證實性偏差的一種特殊形式

”錯覺相關“指的是看到一個實際上並不存在的相關性。關節炎症狀和天氣之間可能存在一定的聯絡,這種聯絡廣為流傳以至於人們常常把它當成事實。

然而,當研究人員綜合考量了病人自述、臨床醫生的評價和一些客觀的測量資料,試圖客觀地研究這一相關性時,卻發現這兩者之間並沒有任何相關性。事實上,真正的罪魁禍首可能是空氣溼度。

這種偏差和抽樣偏差很相似,我們之所以會錯誤地認定某種相關性,是因為我們只關注了一部分資料。如果你期望變數之間存在負相關性,那麼你就可能只關注整個資料集中那些能夠證實這一觀點的一小部分資料。這就是它是一種證實性偏差的原因。

2、對相關性的過低忽視 

1)重視非線性相關性

如果孩子們的體重總是隨著年齡的增長而增長,這裡顯然兩者之間是存在相關性的,但是體重是以指數級增長的(隨著年齡的增長,體重增長得越來越多),那麼皮爾森相關係數會比想象的要低,因為皮爾森係數適用的是線性關係。對待觀測物件間存在的非線性相關性要十分關注。

2)重視樣本資料的概率分佈典型性 - 抽樣偏差

另外一個主要原因是,我們所用的資料可能不具代表性,不能反映資料的基本概率分佈情況。

例如,如果只使用醫院的入院資料和急診科資料來研究流感致死情況,那我們得到的流感死亡率就會比社會整體人群的實際流感死亡率高得多。這是因為病人一般是因為症狀比別人嚴重或者還有其他疾病才會去醫院,而且去醫院的流感病人可能更容易死於流感。

所以我們看到的並不是流感導致的所有結果,而是流感病毒在那些有其他疾病或者流感症狀十分嚴重的病人身上導致的結果。換句話說,這是一個機遇有偏樣本的有偏估計。

為了更好闡述這個問題,我們假設有兩個變數:SAT總成績和學習時間。

然而,由於資料收集的困難(這在實際工程實踐中很常見)我們並沒有所有SAT考生的成績資料,只有那些數學和語文總分超過1400分(下圖灰色部分)的考生的成績資料。在這個限定範圍的資料中,成績好的考生包括那些天生擅長考試的學生(不學習也能考得好)和後天刻苦學習的考生。

如果僅使用灰色區域的考生的成績資料,我們是無法找到這兩個變數(SAT總成績、學習時間)之間的相關性的。

但如果我們將統計的範圍擴大,使用所有考生的考試成績資料,就會發現這兩個變數之間存在很強的相關性。

這就是所謂的【樣本概率分佈典型性問題】,在工程中,我們常常陷入的一個誤區有如下幾個:

  • 樣本資料的獲取成本很大,資料分析師往往很難獲取到足夠的樣本
  • 正、負例樣本不平衡,正例樣本數量較少,很多時候強依賴人工標註,在安防領域這個問題尤其突出
  • 樣本代表性不足,收集到的樣本往往只代表了一小部分群體,沒有覆蓋到整個待觀測的總群體

這種抽樣偏差十分常見,例如那些調查訪客政治觀點的網站。網站的訪問並不是從人群中隨機抽取的調查物件,而是本身就比較關注政治問題的激進訪客。

那些調查極端政治偏見的網站的訪客,情況就更明顯了,這些訪客的政治觀點與一般人的政治觀點之間的偏差就更大了。 

0x3:多重測試與P值 -- 相關性發現與測量中常見的誤區

我們讓以為參與者進入功能性磁共振成像掃描器,然後給這位參與者看各種社會場景的圖片,並讓其判斷每一張圖片中人的情感狀態。

通過功能性磁共振成像掃描器,研究人員能夠測量參與者大腦中各個區域的血液流量,並且經常會用這一測量結果作為神經活動指標,以此來判斷不同種類的任務會用到大腦中的哪些區域。最後掃描出來的彩色影象可以向我們展示大腦中哪些區域的血液流量明顯增加了,這就是一些論文中談到的大腦中有些區域在特定的刺激下“亮了起來”的含義。找到大腦中那些被啟用的區域,可以讓我們深入瞭解大腦的各個部分是如何連線在一起的。

在這項研究中,我們發現參與者大腦中有好幾個區域的血液流量都發生了十分顯著的變化,即P=0.01的統計顯著性,那麼,這個區域是否和人們想象他人情感的活動有關呢?

這裡存在一個重大的統計方法的誤區,那就是多重測試問題!

一次進行多個測試是會出問題的,在磁共振成像研究中,人們考察了大腦中好幾千個很小的區域,所以其中有一個區域呈現出明顯的血液流動現象也並不奇怪,因為有很多原因都可能導致這一現象。這種問題被稱為多重假設檢驗,它指的是同時檢驗大量假設。

在多重假設檢驗中,可能會單純因為巧合而出現一些似乎具有顯著相關性的結果。正確的方法是,每一次測試都需要控制變數。

鑑別因果性最好和最科學的方法就是控制變數與盲測,例如美國FDD藥品測試的隨機雙盲測試。

 

3. 相關性的用途

相關性最主要的用途就是預測,這也是當下IT技術智慧化轉型中被應用地最廣泛的一種技術之一。

關於基於相關性的預測,目前學界也存在不少爭議,很多研究者認為相關性並不可靠,很多相關性的得出過程伴隨著很多抽樣偏差與解釋偏差,而且基於相關性的預測模型無法應對未來可能出現的黑天鵝事件。

筆者對這個問題也有過一些思考,這裡瑾發表一些個人的淺見:首先,我覺得我們都要認清現實,當下的人工智慧還遠遠不是矽基生命體的階段,人工智慧或者叫機器學習模型的效果很大程度還是取決於資料,對於資料來說,演算法工程師和資料分析師最主要的工作就是從資料中提取規律,這裡所謂的規律大部分時候指的就是【統計相關性】。基於資料的有監督訓練得到的模型,其本質上就是一個統計相關性模型,從這個角度來說,相關性是可以被用於預測任務的,當然前提是我們得出的相關性要具有顯著性。

0x1:相關性的醫學用途

1、西醫追求因果性

現代科學追求因果性,找到現象後面的真正原因,比如

  • “蘋果為什麼要掉下來”
  • “心臟瓣膜的作用何在”

科學語言滿足邏輯,概念的內涵清晰不容含混,結論要經過嚴格推理,以理性地解決“為什麼”的問題。

這種追求生動體現在醫學上,生理病理實驗都要搞清楚分子和細胞層面的變化,以設計相應的藥物來矯正,知道藥物在體內是如何發揮作用的,作用的靶點是什麼,會影響哪些受體等等,這些都是對因果性的追求。

但是在現代西醫的早期,認識幾乎都來源於相關性,

  • 種牛痘能預防天花
  • 奎寧能治療瘧疾
  • 福爾馬林能消毒
  • 阿司匹林的療效

這些都是相關性認識,但這不是穩定態,西醫要求替之以因果性。生命科學不斷深入,到一定程度,就變成對分子之間關係的探索,或搞懂分子和細胞之間的相互作用,那是化學反應,更可歸結到物理現象,因而可做到因果性。

但是科學的進步總是需要一個過程的,很多生理和病理現象還無法認識,很多結論只能由統計得出,這是相關性,比如

  • 論證飲食和癌症的關係
  • 疾病表現和地域的關係

循證醫學也有很多相關性的成分。這只是醫學欠發達階段的無奈之舉,骨子裡,西醫有對因果性的渴望。並非西醫一定追求機理,基於高尚的情懷而追求因果性,而是出於實用的考量。人們發現相關性並不保險,西藥有效,能顯著改變疾病程序,這是優點也是缺點,強烈的作用要求嚴格的安全考量,所以努力做到因果性,各期藥物試驗有濃濃的相關性,近幾十年來,監管力量在加大,但毒副作用還是層出不窮,逼著人們搞懂因果性,儘量拋棄相關性,以最大限度地縮減麻煩。

2、相關性更可取

因果性要求對生命的深刻理解,難度很大。要追求因果性,就得從原子分子層面解決問題,就遭遇了生命複雜系統,工作很難展開,下層的因果性知識需要在整體場景展現出來,在諸元的影響下,真正的因果性被汙染了。

相反,相關性思路更可取,只要有人探索獲得瞭解決方法,其他人模仿就好,整個過程都不涉及機理。

我們毫不否認生命的科學性,堅信任何生命現象都能基於物質基礎找到解釋,發現因果關係,但這是未來的遠景,在當下,因果性只能區域性體現,在整體生命層面尚無能為力。這種考量下,用相關性這種“世俗的”方法對待醫學,是一份非常務實的做法。

人類有某種相似內質,這是相關性的理論基礎。這種思路相對安全,生命是緩慢變化的,前人表現的現象,在後人身上也會相似地表達。生命是“平滑的”,沒有現象上的斷崖,癌症在看似突然發生,那只是有限能力下的觀察,它一定是有原因的。相關性獲得的結論穩定、可控、可預測,掌握足夠多資料,就可消除各種隨機性。

0x2:相關性的市場預測用途

很多零售商都在努力尋找能夠預測人們購買行為的指標,他們之所以這樣做就是依據相關性可預測未來行為的原理。

有人宣稱,塔吉特公司在一名青少年的家人還不知情的情況下就已經”知道“她懷孕了。這件事讓塔吉特公司上了新聞頭條。

當然,塔吉特公司並不是真正知道哪個女孩懷孕了,而是利用他們從其他顧客身上收集到的海量資料(以及從其他來源購買到的資料)來了解哪些因素與懷孕的各個階段具有相關性。

比如說,經過足夠的觀察,塔吉特公司發現單獨購買乳液或棉球並不能說明什麼,但是那些懷孕的女士通常會同時購買這兩樣商品以及一些維生素補充劑。

在有了足夠的採購模式以及預產期(可以從嬰兒登記處獲得或者根據顧客購買早孕測試紙的日期估算出來)資料後,塔吉特公司就能判斷出一名顧客懷孕的可能性有多大,並且能夠估算出她已經懷孕多久了。

Amazon、Netflix、LinkeIn這類網站就是利用相關性來為使用者推薦各種互補性商品、使用者可能會喜歡的電影和可能會用到的連結。

比如Netflix網站能夠找到那些和你一樣喜歡某類電影的人,然後向你推薦一些在這些人中評價很高而你還沒有看過的電影。

0x3:使用相關性的風險

1、找到偽相關性

使用相關性的風險之一在於,對於兩個變數之間的任何相關性,我們都可能會找到一些理由理解來解釋這種相關性是如何產生的,從而導致人們對結果過分自信。

一個關於資料探勘的著名案例是,有人利用雜貨店的交易資料發現了人們經常同時購買尿布和啤酒這一現象。於是有人認為,經常在週末來臨之前去商店買尿布的男士,會順便買一些啤酒來”獎勵“自己。但是當追蹤到這個故事的根源之後,Daniel Power(2002)發現最初的相關性資料並沒有提到性別以及時間因素,更沒有像有些人說的那樣 -- 雜貨店特意將這兩樣商品放得很近,以便一起銷售來增加收益。

2、相關性的使用範圍限制

Amazon網站發現,購買某個校園劇和購買AP考試(美國大學預修課程考試)複習用書這兩個行為高度相關。很明顯,美國青少年是這兩種購買行為的主體。

如果Amazon網站只想向同一購買資料群體(美國本土)推薦這些商品,那麼他們不知道這兩種購買行為的主體也沒有關係。但如果Amazon網站開始把AP複習用書推薦給其他國家的顧客,那應該沒多少人會買,因為這些考試的參與者主要是美國學生。

所以,即便某種相關性既真實存在又十分可靠,如果我們試圖將它用在另一個不具備讓這相關性起作用的特徵的群體中,那麼它可能不會起到任何預測作用。

很顯然,Amazon從美國本土購買者身上得到的相關性,並沒有告訴我們為什麼這些事物之間存在聯絡 --- 購買者都是十六七歲、正在準備AP考試、喜歡看主人公年齡和他們相仿的電視劇,沒有這些因果資訊,我們很難將這種相關性推廣到全世界去進行推薦預測。

 

4. 因果關係是什麼?

0x1:因果關係的感知 -- 時空因素

一般情況下,原因的出現往往要先於結果(不管時間上是否接近),即時序性,而且原因和結果之間存在一定的物理聯絡,即空間性。

1、時間因素對因果關係的影響

如果我們看到一個檯球向另一個檯球滾動並且撞擊了它,然後第二個檯球開始向同樣的方向滾動,我們會自然地認為第二個檯球的運動是由第一個檯球引起的。這裡最重要的判斷依據就是時間先後順序因素。

儘管事件發生的順序對因果關係至關重要,但是我們也十分在意原因和結果之間的延遲。如果你和一個得了流感的朋友一起看電影,三個月後你也得了流感,那你可能不會認為是你朋友傳染給你的,當然也不會完全排除這種可能。

這個概率性的判斷來自於你對病毒傳播的先驗認識,即:病毒的傳播存在潛伏期,接觸某個病毒並不會立即引發相應的症狀,但是潛伏期也是有時間限制的,也不太可能在三個月後才出現症狀。

實際上,接觸病毒和引發疾病之間的時間很短,我們可以利用這個時間段來縮小範圍,找到可能是哪一次接觸引發了某個疾病。

時間因素往往能讓我們區分原因和結果,例如體重下降前就已經生病了,這說明這個疾病不可能是體重下降引起的。

時間因素能讓我們的干預措施發揮作用,例如有些藥物必須在接觸病毒後立刻服用。

時間因素還能讓我們預測未來將會發生的事情,例如知道股票價格的上漲時間比僅僅知道它會在未來某個不確定的時間段上漲更有用。

2、時間延遲對因果關係的影響

有研究發現,儘管原因和結果之間的延遲會增加人們準確判斷因果關係的難度,但這在一定程度上也可能取決於人們對這種延遲的不同預期。

如果在擊打高爾夫球和高爾夫球飛出去之間出現了10分鐘的延遲,這就與我們所知道的物理知識嚴重矛盾。但如果一個人接觸了致癌物,然後在十年之後才得了癌症,這麼長的延遲卻不會讓人感到意外。

時間延遲的長度對我們的影響可能有一部分取決於我們對問題的認識,以及我們對事物執行機制的瞭解。這屬於先驗知識的範疇。

延遲並不會妨礙我們的推理活動,也不會降低原因的可能性,就時間問題而言,最重要的是我們觀察到的延遲與我們預期的延遲之間的關係。

3、物理距離對因果關係的影響

“南美的一隻蝴蝶揮動翅膀,有可能引起北美的一場龍捲風。”

蝴蝶效應是氣象學家洛倫茲1963年提出來的。其大意為:一隻南美洲亞馬孫河流域熱帶雨林中的蝴蝶,偶爾扇動幾下翅膀,可能在兩週後引起美國德克薩斯引起一場龍捲風。其原因在於:蝴蝶翅膀的運動,導致其身邊的空氣系統發生變化,並引起微弱氣流的產生,而微弱氣流的產生又會引起它四周空氣或其他系統產生相應的變化,由此引起連鎖反應,最終導致其他系統的極大變化。此效應說明,事物發展的結果,對初始條件具有極為敏感的依賴性,初始條件的極小偏差,將會引起結果的極大差異。

在蝴蝶效應描述的現象中,原因和結果是通過很多很多的中間因素,環環相扣逐步傳遞因果效應的。從觀測者的角度看,就會發現原因和結果之間存在巨大的物理距離,從而影響了人們對因果關係的置信度哦按段。

繼續沿用上面關於檯球撞擊的例子,如果第一個檯球並沒有實際撞擊上第二個檯球,而是在離第二個檯球不遠處就停住了,但是第二個檯球還是向相同方向開始運動了,那麼你可能就不太會認為第二個檯球的運動是第一個檯球引起的。這就是空間上的位置因素影響了人們對因果關係的判斷。

0x2:時間的方向性

1、因果關係反過來對事物認知的影響

假設有個朋友跟你說某種新藥對她的過敏有效,如果她說這種新藥讓她不大噴嚏了(潛在臺詞是說新藥和不打噴嚏之間存在因果關係),那麼你會怎樣假定開始吃藥和不大噴嚏之間的順序呢?

有研究表明,關於因果關係的瞭解,會影響我們感知事件之間時間順序和時間間隔的方式。

對於這個例子來說,我們會得出以下兩個判斷:

  • 吃藥在前,停止打噴嚏在後
  • 吃藥和停止打噴嚏之間的時間間隔應該不會太長

2、測量手段的精度對時間方向性度量的影響 

有時兩個事件看起來好像是同時發生的,但其實是測量粒度或觀察能力有限導致的。

比如,微陣列實驗一次檢測數千個基因的活動情況,而對基因活動水平的檢測通常是固定的時間間隔(比如每小時一次)進行的。從資料上看,兩個基因的活動模式看起來好像是一樣的(同時出現多過度表達或低表達)。然而,事實可能是那個被上調的基因引起另一個基因也隨機被上調。

但是,由於觀測檢測的原因,我們看不到這種順序,而且也沒有任何背景知識表明有一個基因先發生了變化,那麼我們只能確定這兩個基因的表達水平是相關的,而無法確定一個基因是否會導致另一個基因被調節。

沒有任何時間資訊的情況是最複雜的,比如在橫斷面研究中,所有資料都是在同一時間收集的。某個橫斷面研究調查了某個人群中的任意一個小群體,以此來判斷癌症和某個特定病毒之間是否有聯絡。

如果不知道哪個事件發生在前,我們就無法知道它們之間是否存在因果關係。

筆者插入:

這個現象在網路安全攻防中也十分常見,出於計算成本上的考慮,工程師們常常會根據分鐘或者更長的時間作為統計視窗,如果不同的攻擊事件和異常事件剛好發生在同一個時間視窗內,那麼我們只能觀測到彼此的同步相關性,而永遠無法瞭解到它們之間的時序因果關係。 

0x3:因果關係的外推性

因果關係中有一個很重要的考量因素是”外推性“,它指的是一個發現能否被外推到研究人群以外的人群中去。

在歐洲進行的一個隨機對照實驗的結論能否告訴我們某種藥物在美國是否會有效?

隨著時間的變化,因果關係本身也可能會發生改變,新的規章制度會改變影響股票價格的因素;或者因果關係的強度也會發生改變,如果大多數人都在網上看新聞,那麼印刷廣告對人們的影響就會降低。

在使用因果關係時,人們會預設那些讓因果關係成立的因素是保持不變的。但是這種假設是有風險的,在工程實踐中一定要非常小心。

有一些策略可以用來處理這些不穩定的時間序列,比如在資料足夠多的情況下,我們可以縮短研究週期(如果時間序列的某個子集是穩定的),或者把一個不穩定的時間序列變成一個穩定的時間序列。

換句話說就是,在大資料情況下,我們可以縮短訓練得到的模型的生命中週期,例如每週根據當前最新資料訓練得到一個模型,然後用於下一週的預測任務,不斷交替順延。

0x4:度量事物隨時間協變程度的正確方法

海盜數量減少會導致全球氣溫上升嗎?吃馬蘇裡拉乳酪會導致人們去報考計算機專業嗎?檸檬的進口數量會導致公路死亡人數減少嗎?

下圖反映的是檸檬的進口數量和公路死亡人數之間的關係,

該圖顯示,隨著時間的變化,進口數量穩定減少,同時死亡人數則在不斷增加。

出現正向的(或者負向的)隨時間變化的趨勢可能說明某些時間序列之間具有相關性,但這並不意味著它們之間就存在因果關係。

在下圖所示的例子中,自閉症患者的確診人數的增長速度似乎和星巴克咖啡店數量的增長速度相似,因為這兩者的數量碰巧都是按指數級增長的。但是,這種序列中存在因果關係的可能性很小。

Elliot Sober曾經介紹過一個具有不穩定性的例子,它講的是威尼斯海平面和英國麵包價格之間的關係,它們都隨著時間的變化而上漲了,所以二者似乎具有相關性。

從純統計上來講,這兩個變數之間的皮爾遜相關係數是0.8203。

但是要注意!我們這章要討論一個科學度量變數協變數的方法,叫差分度量方法。

我們注意到,儘管這兩個時間序列都一直在增加,但這兩個變數每年的具體增加量卻是不斷變化的,而我們真正想知道的是這些變化是如何相互關聯的。最簡單的方法就是觀察者兩個變數的具體增加量,而不是那些原始的數值。也就是說,與上一年測量的數值相比,本年度海平面或麵包價格上漲了多少?

如果我們使用年度之間的變化值(差分值),那麼相關係數會下降至0.4714,這是一個非顯著統計相關性。

這種方法叫做差分法(即選取連續資料點之間的差量),它是實現時間序列穩定性的最簡單方法。

即便兩個時間時序呈現出的長期趨勢是一樣的,但如果每天或每年的變化量不同,那麼二者各自的變化值可能也不再具有相關性。

我們在很多時間序列組中找到的疑似相關性,如果總體趨勢相似並且具有統計顯著性(例如上面的例子),那麼這種趨勢就會對相關係數產生極大的影響,從而掩蓋了短週期中兩個變數的變化量之間存在的差異。

 

5. 因果關係的應用 

0x1:原因運用中的時間因素

一週中的哪一天最適合訂機票?應該早上鍛鍊還是晚上鍛鍊?經濟學家們經常談論季節效應,這些季節效應是每年同一時間都會出現的規律,是一種不穩定性特徵,但是在很多其他型別的時間序列中,比如看電影的人數受到季節和節假日的影響。

總體來說,基於因果關係進行推理預測的時候,需要考慮以下幾個因素:

  • 確定某個因果關係發生的前提條件,例如:
    • 假如我們在冬季發現了一些能夠讓電影票銷量上漲的因素,那麼這些因素在夏季也許就不會起到預期的效果
    • 有一些規律可能只在一週中的某一天才會出現(比如上下班的習慣導致的一些規律),或者是公共節假日的安排導致的
  • 事件發生的順序,比如:
    • 如果我們觀察到一個人先生病,然後體重才下降,那麼我們就知道體重下降不可能是導致這個人生病的原因,並作出更好的預測。
  • 原因和結果之間的時間間隔,例如:
    • 在選舉之前要確定什麼時候投放某些廣告
    • 收到一條訊息後要確定什麼時候賣掉某個股票
    • 出行前要確定什麼時候開始服用抗瘧疾藥物

 

6. 相關性和因果性的區別與聯絡

0x1:為什麼相關性不等於因果關係

哲學家休謨說過,“因果關係實際上就是相關性”,這個問題既是肯定的也是否定的。相關性對因果性來說是必要但不充分條件。

1、相關性係數是對稱的、而因果關係是有方向的

第一個需要注意的問題是,相關性係數是對稱的,身高和年齡之間的相關性與年齡與身高之間的相關性完全一樣。但是,因果關係是不對稱的。咖啡讓人失眠並不意味著失眠一定會讓人喝咖啡。同樣,將反映原因顯著性的任何數值(比如條件概率)正著算和反著算也是不一樣的。 

當發現一個相關性時,如果我們完全不知道組成這一相關性的因素的發生順序,那麼每一個因素都可能是導致另一個因素出現的原因。

2、相關性中的共同原因現象 -- 因果關係並不是相關性的唯一解釋

儘管因果關係能夠解釋一些相關性問題,但是仍然要牢記這一點:因果關係並不是相關性的唯一解釋,

比如我們發現按時上班和享用豐盛的早餐之間存在相關性,但也許這兩者都是早起的結果,早起讓我們有時間吃早飯,而不是立刻就衝向辦公室。

當我們在兩個變數之間發現一種相關性時,必須考察一下這種無法測定的隱性因素(一個共同的原因)能夠解釋變數之間的關係。

筆者插入:

做網路安全入侵檢測的朋友,應該對一個概念都不會陌生,那就是IOC(信標),從威脅情報金字塔層級理論角度來說,IOC信標屬於最底層的一種情報,它往往是從病毒、漏洞載荷、攻擊方式TTP中提取出來的一種模式,網路安全工程師常常通過信標來實現入侵檢測的目的。這裡面基於的基本原理就是:信標IOC和入侵事件之間存在顯著相關性。但是要特別注意的是,在這些相關性的背後是否還存在其他的隱性因素(共同的原因),我們需要特別關注這種情況,這關係到我們的歸因判斷是否準確。

3、中間變數的存在

與時間因素相似,相關變數之間不存在直接因果關係的另一個原因是中間變數。

比如說,住在城市裡和較低的體重指數之間存在相關性,因為城市居民走路比開車多,所以活動頻率更高一些。這裡住在城市裡就是一箇中間變數,所以住在城市裡就間接導致了較低的體重指數。

如果不瞭解這種中間變數的存在就貿然預測,很可能導致預測失效。比如搬到城市裡卻又開車上下班(比如筆者),那搬到城市裡就是一個無效的減肥策略。

大部分情況下我們找到的都是間接原因(比如我們找到的是吸菸引起肺癌這一結果,而不是具體的生物學機理),但是瞭解原因具體起作用的機制(原因如何導致結果)能夠讓我們找到更好的干預措施。

4、因果關係存在時序先後性、而相關性則不一定

0x2:沒有相關性的因果關係

我們必須承認,有些因果關係中確實沒有相關性。這意味著僅靠相關性並不足以證明因果關係的存在,可能連必要但不充分條件都不成立了。

舉一個沒有相關性的因果管理的例子:長跑對體重的影響。雖然長跑能夠消耗熱量從而減輕體重,但是長跑也能導致食慾大增從而增加體重,跑步的積極作用可能恰好會被它的消極作用抵消。

結果人們就會發現,從最終觀測上來看(和觀測頻率和週期有關),在跑步和減肥之間不存在任何相關性,這個例子的因果結果如下圖所示,

 

Relevant Link:  

https://www.cnblogs.com/LittleHann/p/11992311.html

&n