R 語言之資料分析高階方法「GLM 廣義線性模型」
作者:姚某某
部落格:https://zhuanlan.zhihu.com/mydata
往期回顧:
本節主要總結「資料分析」的「GLM 廣義線性模型」思想。
「知其然,而不知其所以然」是一種很肉痛的感覺。
《 R 語言實戰》一書,從第 13 章開始,進入了資料分析高階方法的介紹,這些方法對於初學者而言,都顯的有些高深莫測。雖然能夠正確的將書中程式碼實現並得到正確的結果,但是總有一種抱著人家孩子卻體會不到人家造人快感的難受,所有我每實踐一種新的方法都天真的想去抓住這些方法的本質,甚至挖掘其來龍去脈,事實證明果然是真的天真,每一種方法的背後都有著一整套的理論體系,要想徹底弄清所有細節,非一日之功。所以,我選擇了退一步,只力求理解其理論思想,不糾結其公式推導,演算法的深入研究留給將來的實踐過程。
本節,我就講一講對「GLM 廣義線性模型」的理解。
1. 廣義線性模型理解
1.1. 個人對廣義線性模型的理解
廣義線性模型,其實沒想象中那麼嚇人,但是大多數文章中的解釋都太過公式化,初學者很難從這些抽象的數學推導中去總結巨集觀的思維過程,直到看到了這個問題「廣義線性模型和聯絡函式」中@Jack Diamond的回答,我才有一種恍然大悟的感覺。
相較與標準線性模型,廣義線性模型有兩個推廣:
響應變數 Y 在標準線性模型中服從於引數為的正態分佈(μY,δ2),推廣到廣義線性模型中,響應變數 Y 服從於指數分佈族中的一種分佈即可,相關引數根據具體分佈而定。(這個指數分佈族的坑就很深,手頭上沒有相關專案我還沒有打算花時間去填,只要記住幾個常用的指數分佈目前也就夠用了,比如二項分佈、泊松分佈等)
線性含義的推廣。在標準線性模型中,線性指的是,響應變數 Y 所服從的正態分佈的引數 μY是線性的,即 μY =a + bx 當然這個線性可以從 x 這個角度做其他推廣,多元、非線性之類)。而在廣義線性模型中,線性推廣至,響應變數 Y 所服從的一個分佈(指數分佈族)的引數θ它的函式 f(θ)是線性的,即(同樣可以從 f(θ)= a + bx 這個角度做其他推廣,這裡的 f(θ) 我們稱為聯結函式)。
1.2. 舉例
1.2.1. 標準線性迴歸
用廣義線性模型表示 Y~(μY,δ2) ,其中 μY =a + bx 。
1.3. 總結
Jack Diamond 的總結已經很到位:
往期精彩內容整理合集一般地說,GLM的建模過程是這樣的:首先弄清楚 y
服從什麼分佈,寫出
公眾號後臺回覆關鍵字即可學習
回覆 R R語言快速入門及資料探勘
回覆 Kaggle案例 Kaggle十大案例精講(連載中)
回覆 文字挖掘 手把手教你做文字挖掘
回覆 視覺化 R語言視覺化在商務場景中的應用
回覆 大資料 大資料系列免費視訊教程
回覆 量化投資 張丹教你如何用R語言量化投資
回覆 使用者畫像 京東大資料,揭祕使用者畫像
回覆 資料探勘 常用資料探勘演算法原理解釋與應用
回覆 機器學習 人工智慧系列之機器學習與實踐
回覆 爬蟲 R語言爬蟲實戰案例分享