1. 程式人生 > >吳恩達最新成果 CheXNet詳解:肺炎診斷準確率超專業醫師

吳恩達最新成果 CheXNet詳解:肺炎診斷準確率超專業醫師

640?wx_fmt=jpeg&wxfrom=5&wx_lazy=1

離開百度之後,吳恩達在學術界異常活躍,除了推出最新的深度學習線上課程之外,他還帶領著一支來自斯坦福的團隊不斷推進深度學習在醫療領域的應用。

近日,吳恩達團隊在 arXiv 上發表了他們的最新成果——用來檢測肺炎的 CheXNet。研究人員表示,這種被稱為 CheXnet 的演算法是一個 121 層的卷積神經網路,能夠通過胸部 X 光片判斷病人是否患有肺炎,而且它的水平已經超越了專業的放射科醫師。

640?wx_fmt=png&wxfrom=5&wx_lazy=1

簡介

僅在美國,每年就有 100 多萬成年人因肺炎住院,其中約 5 萬人因此死亡(CDC,2017)。 目前,胸部 X 光檢查是診斷肺炎的最佳方法(WHO,2001),它在臨床護理和流行病學研究中發揮著至關重要的作用。然而,通過 X 光片來檢測肺炎是一項具有挑戰性的任務,需要依賴放射科醫師的專業能力。在這項工作中,我們提出了一個模型,可以通過胸部 X 光片自動檢測肺炎,其準確率甚至超過了放射科醫師。

我們的模型 ChexNet(如圖1所示)是一個 121 層的卷積神經網路,它的輸入是胸部 X 光片,輸出是肺炎的概率以及熱點圖(heatmap)——用來定位最能指示肺炎的影象區域。我們利用最近釋出的 ChestX-ray14 資料集對 CheXNet 進行了訓練,該資料集包含 112,120 個單獨標註的 14 種不同胸部疾病(包括肺炎)的正面胸部 X 光片。我們使用密集連線(dense connections)和批量歸一化(batch normalization )來優化這種深度網路。

0?wx_fmt=png

圖1

對於放射科醫師來說,通過胸部 X 光來檢測肺炎是很困難的一件事。X 光片中肺炎的特徵往往是模糊的,可能與其他診斷重疊,甚至會與其他良性的異常混淆,因此不同的放射科醫師在診斷肺炎方面有相當大的差異。為了評估放射科醫師的表現,我們請來了四名執業學術放射科醫師,讓他們對 ChestX-ray14 中的 420 張影象進行標註。然後讓其他醫師進行投票,以此來衡量這些醫師的表現,接著我們用同樣的方法來測試模型的表現。

我們發現該模型在敏感性和特異性肺炎的檢測任務上的表現超過了放射科醫師。為了將CheXNet 與之前的同類工作進行比較,我們對 ChexNet 進行了簡單的修改,以檢測 ChestX-ray14 中的所有 14 種疾病,結果我們在這 14 種疾病的診斷表現上都超過之前已公佈方法的最好成績。

0?wx_fmt=png

CheXNet架構和訓練

肺炎檢測是一個二分類問題,其中輸入是正向的正面的胸部 X 光片“X”,輸出是指示肺炎的存在或不存在的二元標籤 t∈{0,1}。對於訓練集中的單個示例,我們優化二元交叉熵損失

0?wx_fmt=png

其中 p(T = i|X) 是網路分配給標籤 i 的概率。

CheXNet 是在 ChestX-ray 14 資料集上訓練的 121 層密集卷積網路(DenseNet)。 DenseNets 通過改善網路的資訊流和梯度,讓非常深的網路的優化變得易於處理。我們將最終的全連線圖層替換為單輸出單元,之後我們應用非線性 sigmoid 函式,輸出的是包含肺炎概率的影象。

網路權重的初始化是隨機的,然後我們使用 Adam 的標準引數(β1= 0.9 和 β2= 0.999)對網路的進行端對端 的訓練。我們使用大小為 16 的批量資料來訓練模型,並將初始學習速率設定為 0.01。

我們使用 Wang 等人釋出的 ChestX-ray14 資料集,其中包含 30,805 名患者的 112,120 張正面X 光片。Wang 等人使用放射學報告中的自動提取方法,用多達 14 個不同的胸部病理學標籤來標註每個影象。我們將確診為肺炎的影象標記為正面示例(positive examples),並將所有其他影象標記為反面示例(negative examples)。我們將整個資料集隨機分成 80% 的訓練資料和 20% 的驗證資料。

在將影象匯入神經網路之前,我們將影象尺寸縮小到 224×224,並基於 ImageNet 訓練集中的影象的均值和標準偏差進行歸一化。我們還通過隨機水平翻轉來增加訓練資料的數量。

CheXNet VS 放射科醫師

我們收集了 420 張正面胸部 X 光片作為測試集,然後讓斯坦福大學的四位執業放射科醫師對其進行標註。

我們評估了放射科意識在肺炎檢測任務的測試集上的表現。回想一下,test420 中的每一張圖片都有來自 4 位執業放射科醫師的真實標註。我們讓其他 3 名放射科醫師進行投票,然後用投票結果來評估每個放射科醫師的表現,然後我們用同樣的方法對 CheXNet 進行評估,並重復四次,以覆蓋所有不同的醫師組合。

我們比較了 CheXNet 和放射科醫師診斷結果的 ROC(Receiver Operating Characteristic)曲線,該曲線將模型敏感性與1 - 特異性進行了比較。圖 2 顯示了 ROC 曲線模型和四名放射科醫師的個人以及平均操作點:每名放射科醫師的表現用橙色表示,而平均值以綠色表示。 CheXNet 的輸出為檢測數肺炎的概率,並且通過改變用於分類邊界的閾值來生成 ROC 曲線。 CheXNet 的 AUROC 為 0.788,而每個放射科醫師的敏感度特異性點數和平均值低於 ROC 曲線,表明 CheXNet  在檢測肺炎這項任務上已經能夠匹配甚超過放射科醫師。

0?wx_fmt=png

圖2 

模型解釋

為了解釋網路預測,我們還使用類啟用對映(class activation mappings,CAMs)來產生熱點圖讓影象中最具指示性的區域視覺化。為了生成 CAMs,我們將影象匯入到已經完全訓練過的網路重,並提取由最終卷積層輸出的特徵圖。令0?wx_fmt=png為第 k 個特徵對映,令0?wx_fmt=png為特徵對映 k 導致病理 c 的最終分類層的權重。我們通過使用與其關聯權重的特徵圖的加權和來獲得用於將影象分類為病理學 c 的最顯著特徵的圖0?wx_fmt=png

從形式上看

0?wx_fmt=png

原文地址:https://arxiv.org/abs/1711.05225

精選推薦

0?wx_fmt=png