2018_CVPR_Interactive Image Segmentation with Latent Diversity

阿新 • • 發佈：2018-05-14

步驟 inter 設計 IE 表示 AR ack per ID

基本信息

CVPR 2018

作者主頁李著文

Interactive Image Segmentation with Latent Diversity

筆記

主要研究內容是交互式圖像分割。偏重於圖像編輯應用領域。大概的理解，就是PS裏面的魔棒什麽的吧。
問題描述，用戶在一張圖片上點擊（選取正負樣本點），生成感興趣的分割目標。問題的特點是多模態的（multimodality），用戶的點擊，你不能確定他是想選中jacket，還是整個人？
本文的目標是，盡可能減少用戶的點擊，就能獲得一定滿意程度的目標分割實例。
整體的思路是：

our approach trains a single feed-forward stream that generates diverse solutions and then selects among them.

生成一系列的候選分割目標，然後從中間選擇一張的目標分割圖片。

整體分成兩個步驟：
- segmentation network (函數 $f$)
  - 輸入：原始圖片$X$,正負點擊點$S_p$和$S_n$,正負點擊距離轉換$T_p$和$T_n$,VGG提取後的特征。
  - 輸出：M個Segmentation Mask，像素值區間是[0,1]實數，連續的。
- selection network (函數 $g$)
  - 輸入：原始圖片$X$,正負點擊點$S_p$和$S_n$,正負點擊距離轉換$T_p$和$T_n$,以及M個Segmentation Masks。
  - 輸出：從M個中選擇一個作為輸出。
關於Loss 函數
Segmentation network使用的loss是作者自己構造的：
\[L_f(\theta_f) = \sum_{i} { min_{m}\{l(Y_i,f_m(X_i;\theta))+l_c(S_p^i,S_n^i,f_m(X_i;\theta_f))\}}\]
其中，
\[l(A,B) = 1-\frac{\sum_pmin(A(p),B(p))}{\sum_p(A(p),B(p))}\]這是一個簡化版本（放寬限制）的Jaccard IoU距離。
\[l_c(S_p,S_n,B) = \parallel S_p \odot (S_p-B)\parallel_1+ \parallel S_n \odot (S_n-(1-B))\parallel_1\]

其中$\odot$表示阿達馬元素乘積。其實就是統計預測正確的點有多少個，當然實際上不是這樣。
值得註意的是

也就是說A中值是離散的，而B中是連續的。
selection network的 loss 函數是：
\[L_g(\theta) = \sum_i\left (-g_{\phi_i}(Z_i;\theta_g)+log\sum_{m=1}^M exp (g_m(Z_i;\theta_g))\right)\]
其中，$\phi_i $ 是mask的索引，用於最小化其和$Y_i$之間的Jaccard 距離。
Segmentation network的設計主要參考Multi-Scale Context Aggregation by Dilated Convolutions,主要特點是空洞卷積獲得多尺度特征。主要結構如下：

Selection network本質上是一個分類網絡，本文沿用上面的網絡結構，做了一些改變，第一層換成一個全局平均池化層，最後的全分辨率預測層，也增加一個全局平均池化層。
作者為什麽使用一個選擇網路去從M（M=6）個mask中，選擇最後需要的解？作者是想過不同的設計方法，最初的設計就是，設計一個loss函數，作為分數函數，對每個結果進行打分，然後排序。這個方案作為了文章的baseline之一。
關於數據集。
作者使用了
- Semantic BoundariesDataset (SBD)
- GrabCut
- DAVIS
- Microsoft COCO
作者特別強調一點：

Note that we do not train on GrabCut, DAVIS, or COCO. Our model is trained only once, on the SBD training set.
關於結果

?
因為作者的目的是減少點擊次數，前面的數據都挺好看，這個U-Net上面的數據貌似不是很好，而且，作者單獨將U-net列表對比，也就是說SBD和COCO上的數據集數據是怎麽樣呢？都做了怎麽多了，應該不差這倆個吧····

總結

這個整體方案還是第一次見到，用的網絡還是在其他網路的基礎上，做了小修改。

第一次接觸交互式任務。主要特點就在這仿真生成模擬點擊，在實際使用的過程中相當於增加了兩個通道，本文的相較於普通的圖像增加了四個通道。

關於交互式點擊模擬：
技術分享圖片

對於圖像大致方法就是采樣20次，之間關於分布概率的計算采用測地距離（采樣點到實際mask邊界距離）。采樣前，像素點是沒有分類的，每次采樣，都會影響預測的結果。（具體細節，還不知道如何操作。）

2018_CVPR_Interactive Image Segmentation with Latent Diversity

步驟 inter 設計 IE 表示 AR ack per ID 基本信息 CVPR 2018 作者主頁李著文 Interactive Image Segmentation with Latent Diversity 筆記主要研究內容是交互式圖像分割。偏重於圖像編輯應用領

論文閱讀筆記 DeepLabv1：SEMANTIC IMAGE SEGMENTATION WITH DEEP CONVOLUTIONAL NETS AND FULLY CONNECTED CRFS

bar pro 依賴性後處理主題處理分配位置平滑論文鏈接：https://arxiv.org/abs/1412.7062 摘要該文將DCNN與概率模型結合進行語義分割，並指出DCNN的最後一層feature map不足以進行準確的語義分割

DeepLab：深度卷積網路，多孔卷積和全連線條件隨機場的影象語義分割 Semantic Image Segmentation with Deep Convolutional Nets, Atro

深度卷積網路，多孔卷積和全連線條件隨機場的影象語義分割 Taylor Guo, 2017年5月03日星期三摘要本文的主要任務是深度學習的影象語義分割，主要有3個方面的貢獻，有重要的實踐價值。首先，用上取樣濾波器進行卷積，或“多孔卷積”,

論文學習：Encoder-Decoder with Atrous Separable Convolution for Semantic Image Segmentation

20180313，谷歌開源了語義影象分割模型 DeepLab-v3+。 GitHub 地址：https://github.com/tensorflow/models/tree/master/research/deeplab 論文連結：https://arxiv.org/abs/1802.02

semantic segmentation with deeplearning

bsp code caf tree anti get codes https pap ParseNet: Looking Wider to See Better [ICLR 2016] paper: https://arxiv.org/pdf/1506.04579.pdf

圖像切割—基於圖的圖像切割（Graph-Based Image Segmentation）

子圖衡量標準 content 彩色 cep 期待 mean 定義筆記圖像切割—基於圖的圖像切割（Graph-Based Image Segmentation） Reference: Efficient Graph-Ba

SegNet:A Deep Convolutional Encoder-Decoder Architecture for Image Segmentation

題目精確 ctu 記錄 aries vol log engine unet 論文英文原文網址：https://arxiv.org/abs/1511.00561 SegNet也是圖像分割的經典網絡，論文的題目可以了解到，SegNet是一個有深度的，帶卷

Note_Fast Image Processing with Fully-Convolutional Networks

ID 耗時 cal CQ 觀測缺點 conf 有監督 tun 基本介紹 ICCV 2017 Fast Image Processing with Fully-Convolutional Networks 筆記作者想建立一個神經網絡模型去近似一些圖像裏的操作，比如圖像風

SegNet: A Deep Convolutional Encoder-Decoder Architecture for Image Segmentation 筆記小結

arc 概率圖插值推理相關分割場景 xiv 忽略原文鏈接：https://arxiv.org/pdf/1511.00561.pdf github（tensorflow）:https://github.com/aizawan/segnet 基於SegNet的鋼鐵

論文閱讀筆記《The Contextual Loss for Image Transformationwith Non-Aligned Data》（ECCV2018 oral）

github 區域偏移 org nbsp 修改 transfer style 但是目錄：相關鏈接方法亮點相關工作方法細節實驗結果總結與收獲相關鏈接論文：https://arxiv.org/abs/1803.02077 代碼：https://

論文閱讀1《AttnGAN: Fine-Grained Text to Image Generation with Attentional Generative Adversarial Networ》

paper連結https://arxiv.org/abs/1711.10485， code連結https://github.com/taoxugit/AttnGAN，作者的homepage https://sites.google.com/view/taoxu 本文給出的是CVPR 2

Rethinking Atrous Convolution for Semantic Image Segmentation論文解

Rethinking Atrous Convolution for Semantic Image Segmentation Abstract 在本文中，我們重溫一下Atrous Convolution的妙用，Atrous Convolution能在調整濾波器的感受野的的同時，解決DCNNs造

Semantic Segmentation with custom dataset

Semantic Segmentation with custom dataset - Prepare dataset X_train.npy Y_train.npy X_val.npy Y_val.npy weights.npy preprocess_

SS（selective search） and Graph Based Image Segmentation

用處：避免滑動視窗暴力窮舉列出所有區域 SS演算法流程其中分割演算法執行結果：分割演算法執行結果： SS執行結果： import skimage.data imp

基於圖的影象分割(Effective graph-based image segmentation)python實現

基於圖的影象分割Effective graph-based image segmentation 前言簡介程式碼實現與解讀圖的構建影象分割問題前言最近在學習區域卷積神經網路(RCN

Local Laplacian Filters : Edge-Aware Image Processing with a Laplacian Pyramid

Abstract 因為它是由空間不變的高斯核構造的，所以拉普拉斯金字塔被廣泛認為不適合表示邊緣，以及進行邊緣感知操作。在本文中，我們展示了使用標準拉普拉斯金字塔的最先進的邊緣軟體處理。我們使用畫素值上的簡單閾值來表徵邊緣，這使我們能夠區分大規模邊緣和小規模細節。我們

How to detect and extract forest areas in a aerial image map with the knowledge of DIP

Signal processing is a common subject in electrical engineering, communication engineering and mathematics that deals with analysis and processing

image caption筆記（四）：Image Captioning with Semantic Attention

文章來自cvpr2016 image caption常見的方法包括top-down和bottom-up。Top-down直接做影象到文字的端到端學習，而bottom-up先抽取出一些關鍵詞，

[深度學習] Image Classification影象分類之Bag of Tricks for Image Classification with Convolutional Neural Net

論文全稱：《Bag of Tricks for Image Classification with Convolutional Neural Networks》論文地址：https://arxiv.org/pdf/1812.01187.pdf 這篇文章主要討論最近這些訓練神經網路的tric

image-to-image translation with conditional adversarial networks文獻筆記

Image-to-Image Translation with Conditional Adversarial Networks （基於條件gan的影象轉影象）作者：Phillip Isola， Jun-Yan Zhu， Tinghui Zhou， Alexei A. Efros 全文連結：https

2018_CVPR_Interactive Image Segmentation with Latent Diversity

基本信息

筆記

總結

相關推薦