1. 程式人生 > >2018_CVPR_Interactive Image Segmentation with Latent Diversity

2018_CVPR_Interactive Image Segmentation with Latent Diversity

步驟 inter 設計 IE 表示 AR ack per ID

基本信息

CVPR 2018

作者主頁李著文

Interactive Image Segmentation with Latent Diversity

筆記

  1. 主要研究內容是交互式圖像分割。偏重於圖像編輯應用領域。大概的理解,就是PS裏面的魔棒什麽的吧。

  2. 問題描述,用戶在一張圖片上點擊(選取正負樣本點),生成感興趣的分割目標。問題的特點是多模態的(multimodality),用戶的點擊,你不能確定他是想選中jacket,還是整個人?

  3. 本文的目標是,盡可能減少用戶的點擊,就能獲得一定滿意程度的目標分割實例。

  4. 整體的思路是:

    our approach trains a single feed-forward stream that generates diverse solutions and then selects among them.

    生成一系列的候選分割目標,然後從中間選擇一張的目標分割圖片。
    技術分享圖片

    整體分成兩個步驟:

    • segmentation network (函數 \(f\))
      • 輸入:原始圖片\(X\),正負點擊點\(S_p\)\(S_n\),正負點擊距離轉換\(T_p\)\(T_n\),VGG提取後的特征。
      • 輸出:M個Segmentation Mask,像素值區間是[0,1]實數,連續的。
    • selection network (函數 \(g\))
      • 輸入:原始圖片\(X\),正負點擊點\(S_p\)\(S_n\),正負點擊距離轉換\(T_p\)\(T_n\),以及M個Segmentation Masks。
      • 輸出:從M個中選擇一個作為輸出。
  5. 關於Loss 函數
    Segmentation network使用的loss是作者自己構造的:
    \[L_f(\theta_f) = \sum_{i} { min_{m}\{l(Y_i,f_m(X_i;\theta))+l_c(S_p^i,S_n^i,f_m(X_i;\theta_f))\}}\]
    其中,
    \[l(A,B) = 1-\frac{\sum_pmin(A(p),B(p))}{\sum_p(A(p),B(p))}\]這是一個簡化版本(放寬限制)的Jaccard IoU距離。
    \[l_c(S_p,S_n,B) = \parallel S_p \odot (S_p-B)\parallel_1+ \parallel S_n \odot (S_n-(1-B))\parallel_1\]


    其中\(\odot\)表示阿達馬元素乘積。其實就是統計預測正確的點有多少個,當然實際上不是這樣。
    值得註意的是
    技術分享圖片
    也就是說A中值是離散的,而B中是連續的。
    selection network的 loss 函數是:
    \[L_g(\theta) = \sum_i\left (-g_{\phi_i}(Z_i;\theta_g)+log\sum_{m=1}^M exp (g_m(Z_i;\theta_g))\right)\]
    其中,$\phi_i $ 是mask的索引,用於最小化其和\(Y_i\)之間的Jaccard 距離。

  6. Segmentation network的設計主要參考Multi-Scale Context Aggregation by Dilated Convolutions,主要特點是空洞卷積獲得多尺度特征。主要結構如下:

    技術分享圖片
    Selection network本質上是一個分類網絡,本文沿用上面的網絡結構,做了一些改變,第一層換成一個全局平均池化層,最後的全分辨率預測層,也增加一個全局平均池化層。

  7. 作者為什麽使用一個選擇網路去從M(M=6)個mask中,選擇最後需要的解?作者是想過不同的設計方法,最初的設計就是,設計一個loss函數,作為分數函數,對每個結果進行打分,然後排序。這個方案作為了文章的baseline之一。
    技術分享圖片

  8. 關於數據集。
    作者使用了

    • Semantic BoundariesDataset (SBD)
    • GrabCut
    • DAVIS
    • Microsoft COCO

    作者特別強調一點:

    Note that we do not train on GrabCut, DAVIS, or COCO. Our model is trained only once, on the SBD training set.

  9. 關於結果
    技術分享圖片
    ? 技術分享圖片
    因為作者的目的是減少點擊次數,前面的數據都挺好看,這個U-Net上面的數據貌似不是很好,而且,作者單獨將U-net列表對比,也就是說SBD和COCO上的數據集數據是怎麽樣呢?都做了怎麽多了,應該不差這倆個吧····

總結

這個整體方案還是第一次見到,用的網絡還是在其他網路的基礎上,做了小修改。

第一次接觸交互式任務。主要特點就在這仿真生成模擬點擊,在實際使用的過程中相當於增加了兩個通道,本文的相較於普通的圖像增加了四個通道。

關於交互式點擊模擬:
技術分享圖片

對於圖像大致方法就是采樣20次,之間關於分布概率的計算采用測地距離(采樣點到實際mask邊界距離)。采樣前,像素點是沒有分類的,每次采樣,都會影響預測的結果。(具體細節,還不知道如何操作。)

2018_CVPR_Interactive Image Segmentation with Latent Diversity