1. 程式人生 > >【神經網路本質是多項式迴歸】Jeff Dean等論文發現邏輯迴歸和深度學習一樣好

【神經網路本質是多項式迴歸】Jeff Dean等論文發現邏輯迴歸和深度學習一樣好

起因是以色列理工學院工業工程與管理學院的助理教授 Uri Shalit 在 Twitter 上發文,指出這篇論文的補充材料裡,有一處結果非常值得注意:標準化邏輯迴歸實質上與深度神經網路一樣好

6048abf334ae40af94cc0af42aeafa2cb17cd2ba

Uri Shalit 的研究方向是將機器學習應用於醫療領域,尤其是在向醫生提供基於大型健康資料的決策支援工具方面。其次,他也研究機器學習和因果推斷的交集,重點是使用深度學習方法進行因果推斷。在加入以色列理工學院以前,他先後在 David Sontag 教授在紐約大學和在 MIT 的臨床機器學習實驗室當博士後。 Uri Shalit 說的補充材料中的結果是指這個:

7d8e81da1609ed47cd71cfa541924604be276ad2

其中,基線 aEWS(augmented Early Warning Score)是一個有 28 個因子的邏輯迴歸模型,在論文作者對預測患者死亡率的傳統方法 EWS 進行的擴充套件。而 Full feature simple baseline 則是 Uri Shalit 說的標準化邏輯迴歸。

注意到基線模型(紅框標識)和深度模型在 AUCs 置信區間的重疊了嗎?

Uri Shalit 表示,他由此得出的結論是,在電子病例分析這類任務中,應該選擇使用邏輯迴歸,而不是深度學習,因為前者更加簡單,更具可解釋性,這些優點要遠遠勝過深度學習帶來的微小的精度提升。

或者,Uri Shalit 補充說,這表明我們目前還沒有找到正確的深度學習結構,能實現在影象、文字和語音建模領域中那樣的效能提升。

谷歌首篇深度學習電子病歷分析論文,Jeff Dean 等大牛扛鼎之作,結果出人意料

谷歌的這篇論文“Scalable and Accurate Deep Learning for Electronic Health Records”,發表在自然出版集團(NPG)旗下開放獲取期刊 npJ Digital Medicine 上,由 Jeff Dean 率隊,聯合 UCSF、斯坦福、芝加哥大學眾多大牛,與全球頂級醫學院聯合完成,從題目到作者都吊足了大家的胃口。

718f661e4d5260fb7dbdd925c27bdcbd919e9ef9

這項工作是在 UCSF 和 UChicago 這兩大醫院系統的電子病歷資料上,用深度學習模型預測四件事:1)住院期間的死亡風險;2)規劃之外的再住院風險;3)長時間的住院天數;4)出院的疾病診斷。

文章仔細介紹了實驗資訊,例如如何構建病人佇列、特徵如何變換、演算法如何評價等等。對於每一個預測任務,作者也都選取了臨床上常用的演算法作為基線來進行比較,例如評價死亡風險的 EWS 分數,以及評價再住院風險的 HOSPITAL 分數,並對這些模型做了微小的改進。最終結果,作者提出的深度學習模型在各項任務中都顯著優於傳統模型(AUC 普遍提高 0.1 左右)。

0a88bc59a8dd6278c5e28b807dc3ccfdfe65d643

論文插圖:使用深度學習預測病人住院期間死亡風險,深度學習(實線)在前後24小時時間範圍內,都比基線水平(虛線)準確率更高。

如果說這次在同行評議期刊發表出的論文與之前的 arXiv 版本有什麼不同,最大的就是給出了 15 頁的補充資料,展示了深度學習方法與各種基線的具體數值。

谷歌這篇論文的初衷,是強調直接從 FHIR 資料中進行機器學習(“我們提出了一種對病人整個基於 FHIR 格式的原始 EHR 的表示”)。正如論文中所寫的那樣,其方法的原創性並不僅僅在於對模型效能的提升,而是“這種預測效能是在沒有對專家認為重要的那些變數進行手動選擇的情況下實現的……模型訪問每位患者數以萬計的預測因子,並從中確定哪些資料對於進行特定的預測非常重要”。

但是,從論文的一些表述,尤其是標題中,難免有宣傳深度學習的嫌疑,也是這次爭議重點所在。

UC戴維斯和斯坦福新研究,首次證明神經網路 = 多項式迴歸

現如今,深度神經網路已經成了很多分析師進行預測分析的首選。而在大眾媒體裡,“深度學習”也幾乎可以算得上“人工智慧”的同義詞。

深度學習的熱潮或許仍在持續,但很明顯,越來越多的人開始冷靜下來思考並且質疑。

在一篇最新公佈的文章裡,加州大學戴維斯分校和斯坦福的研究人員便指出,神經網路本質上是多項式迴歸模型。他們的文章取了一個謹慎的標題《多項式迴歸作為神經網路的代替方法》(Polynomial Regression As an Alternative to Neural Nets),對神經網路的眾多性質進行了討論。

265d1aedf2562bdd8e20a6c5d2b8bad9145c881f

作者在論文中列出了他們這項工作的主要貢獻,包括:

  • NNAEPR 原理:證明了任何擬合的神經網路(NN)與擬合的普通引數多項式迴歸(PR)模型之間存在粗略的對應關係;NN 就是 PR 的一種形式。他們把這種鬆散的對應關係稱為 NNAEPR——神經網路本質上是多項式模型(Neural Nets Are Essentially Polynomial Models)。

  • NN 具有多重共線性:用對 PR 的理解去理解 NN,從而對 NN 的一般特性提供了新的見解,還預測並且確認了神經網路具有多重共線性(multicollinearity),這是以前未曾在文獻中報道過的。

  • 很多時候 PR 都優於 NN:根據 NNAEPR 原理,許多應用都可以先簡單地擬合多項式模型,繞過 NN,這樣就能避免選擇調整引數、非收斂等問題。作者還在不同資料集上做了實驗,發現在所有情況下,PR 的結果都至少跟 NN 一樣好,在一些情況下,甚至還超越了 NN

NNAEPR 原理——神經網路本質上是多項式迴歸

其中,作者重點論證了他們的 NNAEPR 原理。此前已經有很多工作從理論和實踐角度探討了神經網路和多項式迴歸的共性。但是,UC戴維斯和斯坦福的這幾名研究人員表示,他們的這項工作是首次證明了 NN 就是 PR 模型,他們從啟用函式切入:

根據通用逼近定理,NN 可以無限逼近迴歸函式 r (t),

假設 p = 2,用 u 和 v 來表示特徵,第一層隱藏層的輸入,包括“1”的節點,將是9c03e9a6618e2adb2a0aa1c91bda5a075680f89a設啟用函式為ab1f8b0f9ce655d0ed9d301c3271e34df4c37fc9,那麼第一層的輸出將是 u 和 v 的二次函式。類似地,第二層將產生四次多項式,依此類推,可以生成在迴歸函式空間中密集的多項式。

而對於更加實際的啟用函式,其本身就常常被多項式逼近。因此,也適用於上述規則。

換句話說,NN 可以被鬆散地視為多項式迴歸的一種。

實驗結果:多項式迴歸在很多時候都優於神經網路

作者進行了很多實驗來比較 PR 與 NN 的效能。在下面的各種結果中,PR 表示多項式迴歸,PCA 表示在生成多項式之前用 90%總方差主成分分析降維。KF 表示通過 Keras API 的神經網路,預設配置是兩層,一層 256 個單元,一層 128 個單元(寫作 “256,128”),dropout 比例是 0.4。DN 表示通過 R 語言包 deepnet 的神經網路。DN 會比 KF 快很多,因此在大一些的問題裡會用 DN,但兩者效能還是相似的。

18186317796e5eadb63f542ec1103b3c008cf08f

總之,一系列實驗結果表明,PR 至少不會比 NN 差,有些時候還超過了 NN。在實踐中,許多分析師只是一開始就去擬合過大的模型,比如使用很多層,每層有數百個神經元。他們發現,使用 PR,很少需要超越 2 級,NNAEPR 原理表示,只用一層或者兩層就夠了,每一層有少量的神經元。

同時,作者也開始懷疑,擬合大的 NN 模型通常導致大多數的權重為0,或接近於0。他們已經開始調查這一點,初步結果與 NNAEPR 原理相結合表明,在 NN 初始化中 configur 大型網路可能是個糟糕的策略。

最後,他們開源了一個 R 語言的軟體包 polyreg(Python 的正在製作中),裡面有很大原始碼可以實現很多功能。

原文釋出時間為:2018-06-27

本文作者:聞菲

本文來自雲棲社群合作伙伴新智元,瞭解相關資訊可以關注“AI_era”。