「Transfer Learning」Note on CyCADA: Cycle-Consistent Adversarial Domain Adaptation
雖然CyCADA[1]被AdaptSegNet超越了,但是兩者可以結合在一起,進一步提升域適配中語義分割的效能。在沒有AdaptSegnNet的時候,CyCADA是很好的模型。在CyCADA論文的第三個版本中,發現DRN-26[2]比AdaptSegNet中DeepLabv2-ResNet-101-pre-trained-ImageNet的分割效果要好(67.4 vs 65.1 mIoU)。
作者:Judy Hoffman, Eric Tzeng, Taesung Park, Jun-Yan Zhu, Phillip Isola, Kate Saenko, Alexei A. Efros, Trevor Darrell
本博文之前閱讀的版本為ArXiv v1,現在閱讀ICML版本。
0 摘要
提及基於特徵空間方法難以理解,甚至有時候無法捕獲畫素級和低階域偏移。基於影象空間方法有時候無法包含與終端任務相關的高階語義知識。因此,論文提出兩種對齊,其一為生成影象空間對齊(generative image space alignment),其二為隱含表徵空間對齊(latent representation space alignment)。簡單來說,就是結合RGB值級(對應醫學灰度影象,就是灰度值)和特徵級進行域適配。
1 介紹
指出特徵無監督域適配方法的兩個limitations,其一為對齊邊緣分佈/條件概率分佈無法強加任何語義一致性,即車的目標特徵可能對映為單車的源特徵;其二我對齊較高階的深度表徵無法對低階外觀進行建模。 指出生成畫素級域適配方法
2 CyCADA
在CyCADA論文中,定義了一種問題——無監督適配,即僅提供源資料 和源標籤 ,以及目標資料 ,沒有目標標籤或者不利用它。問題的目的是學習一個模型 ,它可以正確預測目標資料的標籤。
預訓練源任務模型
因為手頭上有源資料 和源標籤 ,所以可以訓練一個源模型,像平常訓練一個分割網路。公式見論文,此處忽略。
畫素級適配
兩個,一個,一個。在圖1中的綠色和紅色部分,就是一個CycleGAN。在論文中,加入語義一致性(semantic consistency)是一個貢獻,因為已知源標籤。語義損失為: 這部分可見圖1的黑色部分。
特徵級適配
再加上一個畫素級的GAN損失。 完整的損失為: 其中,第一項 表示,源影象 經過變換(全卷積網路?) 偽目標影象, 然後該影象經過分割網路得到源預測結果,與源標籤 得到 損失;第二項 表示,變換 根據源影象