1. 程式人生 > 實用技巧 >Contrastive learning:充分利用有限的醫學標註資料 |NeurIPS 2020

Contrastive learning:充分利用有限的醫學標註資料 |NeurIPS 2020

Contrastive learning:充分利用有限的醫學標註資料 |NeurIPS 2020

論文導讀:

“ 為了充分利用三維醫學影象區域性區域之間以及連續二維影象序列全域性之間的相似性,提出了基於對比學習的全域性和區域性資訊學習方法。實驗證明,該方法對模型進行語義分割效能提升顯著。”

在這裡插入圖片描述

論文地址:paper

1、Abstract

利用大量的標註資料,深度學習模型在醫學影象分割任務中均能取得不錯的成績。但是,對於醫學影象來說,資料不易於獲取,並且標註需要經驗豐富的專業醫師,相對於自然場景的資料來說標註成本高。因此,降低資料需求的模型就顯得尤為重要。自監督學習(Self-supervised learning ,SSL)就是一種有希望能解決該問題的方法。它首先利用無標籤的資料進行預訓練,然後將模型訓練的結果(模型的引數),作為常規監督訓練模型的初始化引數(即自監督訓練引數初始化常規監督訓練模型引數), 再利用該初始化引數進行數量有限的帶標籤資料的監督學習。這種方法在自然影象和醫學影象中均取得了不錯的成績。

本文作者重點研究一種自監督學習的變體方法“對比學習”(contrastive learning )。這個方法提出的“直覺依據”是:同一影象,即使經過不同的影象變換,其變換後的影象之間也應具有相似的特徵表達。反之,不同的影象之間的特徵表達肯定是不同的。根據這種思想,在實踐中人們設計了一種“對比損失”(contrastive loss)來表達這種(同一原始影象)相似和不同(不同的原始影象),並使用未標註資料,通過最小化對比損失,進行神經網路的優化訓練。由此訓練得到的神經網路能夠提取到對下游任務,如影象分類、目標檢測有用的特徵表達。這種訓練模型引數能夠作為後續任務模型的初始化引數,即使利用少量有限的資料,並在此基礎上進行fine-tune,也能得到一個精準的模型。

儘管對比學習已取得不錯的成績,但根據現有的文獻作者發現有兩個重要方向還未進行深入的探索和研究。首先,大量的研究工作聚焦在讓模型提取全域性特徵表達,而忽略了明確地學習每個區域性區域的獨有特徵表達。這也是作者認為可能對畫素級影象分割有益的地方。其次,對比學習的策略往往是使用資料增強,(即前文提到的同一影象進行不同影象變換也就是不同的資料增強方法,同一原始影象經變換後相互之間的特徵表達相似,不同影象之間的特徵表達不同),而沒有用到不同資料之間的相似性(注意:作者為什麼要在前文摘要中就提出是特定領域domain-specific cue 和特定問題 problem-specific cues。因為MRI/CT是三維資料,每層資料之間是存在相似性的,而自然場景的影象一般是不存在這種相似性)。因此作者利用針對特定領域資料結構(三維資料,本質上就是多個二維資料在新增維度上的堆疊),通過資料結構之間的內在聯絡,以獲取相比傳統單個數據源進行資料增強方式更多的效能提升。


讀到這裡,作者對問題的挖掘,Idea的提出就比較明確了。簡單總結一下:以前的方法都是利用同一影象,進行不同影象變換,經過變換後的影象之間,特徵提取模型獲得的特徵表達是相似的,不同影象特徵表達不一樣。這也就是對比損失的由來。但是針對三維影象資料如MRI/CT,每一層資料之間是相互關聯的,具有一定的相似性。那麼作者就針對這種特定的資料,設計了類似影象增強的相似度度量方式。其實不難發現,通過在模型訓練時設計這樣一種配對資料進行相似性(類似資料)/差異性(不同資料)訓練,對模型的效能肯定有提升。下面只需要進行試驗驗證了!

2、Related Work

作者主要針對的是自監督學習Self_supervised learning (SSL),並將此類方法粗略的分為兩類。

2.1、運用代理任務的方法,對未標註資料可以設計易於獲取的“標籤”資訊。如影象方向,影象修補等。

2.2、基於對比學習的方法,設計對比損失以提升模型對相似和不同配對資料間的表達能力。

與上述兩類對比學習方法不同的是: ①先前的研究都只重點關注應用於影象級別的預測任務中用到的編碼器(Encoder)。本文作者設計的方法聚焦畫素級預測任務,同時涉及編碼器和解碼(Decoder);②影象區域性區域的特徵表達將同時融合全域性和區域性特徵資訊,讓區域性的特徵融入更多的影象級特徵表達(即區域性區域的特徵表達,包含了影象全域性資訊以及區域性資訊),提升解碼器區分同一影象不同區域之間的特徵表達差異;③針對三維醫學影象,設計了一種配對的訓練資料以提升模型效能。

3、Method

實驗方法主要分為兩個部分,全域性對比損失(Global contrastibe loss)和區域性對比損失(Local contrastive loss)。

3.1、全域性對比損失
在這裡插入圖片描述在這裡插入圖片描述
在這裡插入圖片描述
分別表示統一原始影象經過不同影象變換後的結果影象。是指Encoder編碼器。是指全連線網路。是指尺度縮放參數。指簡單的影象變換方法集合。sim(·)指餘弦相似度。那麼上述公式表達的就是同一影象,經過不同的影象變換(一對)輸入編碼器,在編碼器特徵提取完成後接一個淺層的全連線網路。網路的輸出結果進行餘弦相似度計算並帶入上述公式即可,那麼每個mini-batch的Loss如下。

在這裡插入圖片描述
其中是指相似影象的集合,是指不同影象的集合。那如何定義上述集合呢?

3.2、區域性對比損失

將配對的和經過Enocder後,輸入進行Decoder進行解碼,獲取第L層的feature map。將該feature map切分成K*K份,提取每一份對應的特徵塊(切分後的),輸入進一個全連線層,計算餘弦相似度。
在這裡插入圖片描述
在這裡插入圖片描述

設定資料集有M個三維影象資料,每個三維影象由D張二維影象組成。由於多個MRI/CT資料對同一解剖面具有相同的模態,可得到部分相同的視野。因此,將D張二維影象劃分為S組。表示資料來源於第i個三維資料的第s組。下標s相同,即表示資料具有相同/相似的視野。基於上述方法構建相似/不同的資料集,在訓練的時候採用隨機選擇配對的方式進行訓練。

在這裡插入圖片描述

4、訓練

首先使用全域性對比損失訓練Encoder(需要設定一個全連線層g1),然後固化Encoder引數,利用區域性對比損失訓練Deocder的第1層至第L層(需要設定一個全連線層g2)。最後補全Decoder後續部分,該部分採用隨機引數進行初始化,並利用標註資料進行微調,完成整個模型的訓練。

4.1、 Experiments and Results
在這裡插入圖片描述
在這裡插入圖片描述

5、 Conclusion

作者用實驗證明了方法的有效性。對三維醫學影象,在缺乏標註資料的情況,充分利用全域性和區域性特徵表達提升語義分割效能。

6、結語

資料決定了模型效能的上限。那麼充分挖掘資料的特性,針對特定的任務需求,設計出適合這類資料的訓練方法,包括但不限於資料取樣方式,損失函式,網路結構,訓練方法,初始化方法等,在一定程度上均提升模型的效能。

想要了解更多關於論文的技術細節,可參考原文及開原始碼!

如果覺得對論文的分析和理解對您有幫助,請關注我的微信公眾號Deep Learning Engine。

在這裡插入圖片描述