1. 程式人生 > >更少的圖片標註工作,更棒的分類效果。肺結節診斷論文筆記。

更少的圖片標註工作,更棒的分類效果。肺結節診斷論文筆記。


寫在最前面

只有少量的標記的資料集或是隻有少量的資料集往往是我們工作的實際情況,這是一種不完美或是說不完備的情景。我對此想到了RWBY中的一句話"我們的敵人不會等著我們學成畢業再行動,我們必須時刻準備著"。作為即將步入研究生的我,我想未來的專案也不會等著我什麼都學明白了再出現,我們必須時刻準備在短時間內能學完大量知識,為解決工作中的問題提供力量,因為無法完美準備的工作正是理工科的常態。
讀本文意在幫一個和我關係很好的老師做一個類似的程式,所以本文目的為理解思路,進行復現,開始!


論文名

Lung Nodule Detection using 3D Convolutional Neural Networks Trained on Weakly Labeled Data

論文地址

論文地址

摘要渣譯

早期發現肺結節是目前預測和治療肺癌最有效的方法之一。因此,在過去十年中,人們開始關注肺結節的計算機輔助診斷(CAD)概念摘出1,其目的是有效地檢測,分割肺結節並將其分類為良性或惡性。由於它們在形狀,大小和質地上的任意性,有效檢測這些結節仍然是一個挑戰。在本文中,我們建議採用三維卷積神經網路(CNN)來學習結節檢測的高度辨別特徵,而不是幾何形狀或紋理等手工設計。雖然3D CNN是用於對資料的時空統計建模的有前途的工具,但是它們受到對詳細3D標籤的需求的限制,與獲得2D標籤相比,這可能非常昂貴。現有的CAD方法依賴於獲得肺結節的詳細標籤,訓練模型,這也是不現實和耗時的。為了緩解這一挑戰,我們提出了一種解決方案,其中專家需要僅提供點標籤,即結節的中心畫素,以及其最大預期尺寸。我們使用無監督分割來生長出用於訓練CNN的3D區域。使用SPIE-LUNGx資料集上的實驗,我們表明,使用這些弱標籤訓練的網路可以產生相當低的誤報率和高靈敏度,即使沒有準確的3D標籤。

前言

別人:
1.難以獲得帶註釋的資料,這比傳統的計算機視覺要昂貴得多。
2.2015年肺癌和支氣管癌死亡的人數比其他所有癌症都要多。
3.Kumar等人使用自動編碼器(無監督學習網路)用於學習將結節分類為惡性或良性。
4.Ginneken等使用現成的卷積神經網路用於分類的功能。
5.大多數這些方法都是使用2D卷積濾波器在2D影象上單獨訓練,而手頭的資料本質上是3維的。
6.羅斯等通過考慮“2.5D”表示來解決這個問題,該表示從3個正交檢視中的感興趣點獲取影象的切片用於訓練深度網路。
自己:
1.本文檢測系統通過使用“點標籤”減少了專家的標籤工作,“點標籤”基本上是可能指示結節中心的單個畫素位置。通過使用無監督學習方法從弱資訊中估計真實標籤,我們表明我們可以減少專家標註所需的工作量,同時能夠訓練能夠有效區分的3D網路。
2.我們建議在以結節為中心的較小的3D區域而不是整個影象上訓練我們的網路,同時分別構建具有不同大小的兩個網路,分別為41×41×7和25×25×7。最終檢測是作為兩個網路的共識而獲得的。我們的主要貢獻可歸納如下:
(1)我們提出了一個模組化系統,它利用了3D卷積神經網路的魯棒性來解決肺結節檢測問題。
(2)我們的系統使用點標籤,指定單個體素位置,指示結節的存在,以及最大的橫截面積。
(3)通過學習具有不同大小的兩個不同網路,我們的檢測系統實現了改進的泛化。
(4)我們在AAPM-SPIE-LungX結節分類資料集上展示了有希望的結果。

方法

預估弱標籤

我們首先僅使用單個體素位置或點標籤,這表明存在結節。
過程:初始切片 ROI區域 基本閾值 超畫素濾波 最終預估圖
在這裡插入圖片描述

訓練

1.如果結節的位置是V(x,y,z),其中V是整個CT體積,我們選擇輸入體積為v = V(x-w:x + w,y -w) :y + w,z -h:z + h),其中h是X,Y平面中的視窗大小和Z平面中的h。我們使用w = 10 - 25和h = 3,5的範圍內的值。
2.訓練3D CNN需要很多例子才能有效地學習濾波器。因此,為了給我們的訓練集擴充,我們將同一結節內的不同體素視為不同的正面例子。典型的結節在其最大尺寸範圍內可以是3-28個畫素寬,並且通常跨越3-7個切片。
3.我們隨機抽取強度高於閾值的樣本位置(在Hounsfield量表上≈400-500)。通過AAPM-SPIE-LungX資料集產生了約15K陽性樣本和約20K陰性樣本。

網路結構

如圖2所示,我們的網路包含5個卷積層,其後是整流線性單元(ReLU)啟用層,2個最大池化層,以及用於分類的最終2路softmax層。有dropout,卷積核心大小為1×1。
在這裡插入圖片描述

測試與診斷

1.觀察到系統上的大多數假陽性檢測是因為氣道是肺的一部分,但在區域性觀察時看起來很像結節。
2.如果當前體素周圍的區域是球形,則得到的“點得分”高。 點分數圖在每個當地社群中設定閾值,以提供候選人的最終名單。
3.我們設定了一個低閾值來消除明顯的非結節狀元素,並執行3D高斯平滑濾波器來去除體積內較小的雜散粒子。這些步驟顯著減少了誤報,導致每次掃描大約有80-200個3D結節。

實踐

1.使用SPIE-AAPM-LUNGx資料集:該資料集將每個結節標記為良性或惡性,它不包含結節的詳細標籤,因此是一個真實的測試用例。在70次掃描中,我們使用20次掃描,47次測試。 丟棄了三次掃描,因為在指定位置存在結節存在模糊性。
2.多尺度CNN:肺結節的大小差異很大,通常在3mm到20mm之間。許多成功的檢測系統採用多尺度架構。我們選擇了兩個尺度為25×25×7和41×41×7的實驗。我們分別訓練它們並從每個CNN獲得預測以獲得最終結果。最後,我們在各種檢測閾值下生成無限制的受試者工作特徵曲線概念摘出2。在特定閾值處,如果在地面實況的小半徑(通常為5-10)周圍存在結節,則宣告匹配。且只有最接近且在距離閾值內的那個被認為是陽性,
3.結果:我們計算了我們系統的FROC,它將靈敏度與每次掃描的平均誤報數進行了對比。結果如圖3a所示。可以看出,即使使用弱標記系統,我們也能獲得每次掃描10次誤報的靈敏度80%。樣本預測如圖3b所示。
在這裡插入圖片描述

概念摘出

computer aided diagnosis
計算機輔助診斷
第一次我翻譯這個的時候,完全不知道有這個專有名詞

free receiver operating characteristic (FROC)
無限制的受試者工作特徵曲線

程式復現

先鴿著,正在下載Matlab準備做兩科的大作業,之後再下載肺結節資料集,然後還要除錯一會。