1. 程式人生 > >CVPR 2018 論文解讀(部分)

CVPR 2018 論文解讀(部分)

CVPR 2018還有3個月就開始了,目前已經公佈了所有收錄論文名單,為了能夠讓大家更深刻了解CVPR的論文,我們進行了一些CVPR 2018論文解讀的整理,後續還會持續更新。

1、CVPR2018|DiracNets:無需跳層連線,訓練更深神經網路,結構引數化與Dirac引數化的ResNet

論文講述了虛擬化技術犧牲硬體開銷和效能,換來軟體功能的靈活性;深度模型也類似,如果把網路結構引數化,得到的模型更靈活易控,但是計算效率並不高。

2、CVPR 2018 | 殘差密集網路:利用所有分層特徵的影象超解析度網路

美國東北大學最近在影象超分辨領域提出了一種殘差密集網路,來從原圖生成高解析度影象。該網路結合殘差網路與密集連線網路的特性充分利用原始 LR 影象的所有分層特徵,因而能重構出高質量的影象。

3、CVPR2018|DA-GAN技術:計算機幫你創造奇妙“新物種”

微軟亞研院被CVPR2018接收的論文提出的DA-GAN技術,能夠通過文字描述生成新形象,形成了全新的藝術創造模式。

4、CVPR 2018 論文概述:有失真壓縮視訊的多幀質量增強方法

CVPR 2018論文《Multi Frame
Quality Enhancement for Compressed Video》提出針對有失真壓縮視訊的多幀質量增強方法,顯著提升了視訊質量增強的效能。

5、CVPR 2018 | 使用CNN生成影象先驗,實現更廣泛場景的盲影象去模糊

現有的最優方法在文字、人臉以及低光照影象上的盲影象去模糊效果並不佳,主要受限於影象先驗的手工設計屬性。本文研究者將影象先驗表示為二值分類器,訓練 CNN 來分類模糊和清晰影象。實驗表明,該影象先驗比目前最先進的人工設計先驗更具區分性,可實現更廣泛場景的盲影象去模糊。

6、CVPR2018:基於時空模型無監督遷移學習的行人重識別

本文為你解讀CVPR2018 TFusion,解決的目標是跨資料集的Person Rei,屬於無監督學習,方法是多模態資料融合 + 遷移學習。實驗效果上,超越了所有無監督Person reid方法,逼近有監督方法,在部分資料集上甚至超越有監督方法。

7、獨立迴圈神經網路(IndRNN):打造更長更深的RNN

電子科技大學和澳大利亞伍倫貢大學的研究者合作發表論文,介紹了他們創造的獨立迴圈神經網路(IndRNN),這種新型RNN能有效解決網路收斂時的梯度爆炸和消失問題,並能夠處理更長的序列。

8、CVPR 2018 | 騰訊AI Lab、MIT等機構提出TVNet:可端到端學習視訊的運動表徵

來自騰訊 AI Lab、MIT、清華、斯坦福大學的研究者完成併入選 CVPR 2018 Spotlight 論文的一項研究提出了一種能從資料中學習出類光流特徵並且能進行端到端訓練的神經網路:TVNet

9、CVPR 2018 | Spotlight論文:變分U-Net,可按條件獨立變換目標的外觀和形狀

來自德國海德堡大學的研究者提出了條件 U-Net,將變分自編碼器輸出的外觀條件化。實驗證明,這個模型能夠完成條件影象生成和轉換。在多個數據集上進行的定性和定量實驗表明,該方法比目前最先進的方法都有所提升。

  • 以下論文解讀來源於paperweekly

10、Unsupervised Person Image Synthesis in Arbitrary Poses

CVPR 2018 Spotlight 論文,ReID + GAN 換 pose。本文用了較多的篇幅講 loss function,pose 的提取用的是 OpenPose 這個庫。 其 loss 分為三部分: Image Adversarial Loss、 Pose Loss、Identity Loss。

論文連結

iri,upc.edu/people/aagudo/Papers/CVPR2018/apumarola_etal_cvpr18_2.pdf

11、Person Transfer GAN to Bridge Domain Gap for Person Re-Identification

CVPR 2018 RE-ID Spotlight 一篇,這篇文章主要 contribution 有以下兩點:

提出了一個新的更大的資料集,更為細緻:考慮到了視角,光照等更為細緻的因素,具體引數可以直接看文章;多個數據集間的差異,即 domain-gap,通過 GAN 來生成和模仿。

論文連結

arxiv.org/pdf/1711.0856

程式碼連結

github.com/JoinWei-PKU/

資料集連結

pkuvmc.com/publications

12、Disentangled Person Image Generation

在 NIPS 2017 上,該團隊已經為我們貢獻了 Pose Guided Person Image Generation 這篇非常棒的文章,在 CVPR 2018 中,他們推出的更新的這篇文章不僅僅解決了換 pose 問題,還實現了”隨心所欲“的換裝換 pose,入選今年的 Spotlight

論文連結

arxiv.org/pdf/1712.0262

13、Practical Block-wise Neural Network Architecture Generation

CVPR 2018 Oral 一篇,本文主要提出了通過封裝模組(block-wise)的方法,運用增強學習設計生成網路架構的方法。

論文連結

arxiv.org/pdf/1708.0555

14、Deep Layer Aggregation

CVPR 2018 Oral,topic:網路設計模組化如名所示,提出了 aggregation 的具體思路,並在層融合上提出了具體方式。

論文連結

arxiv.org/pdf/1707.0648

15、Learning Face Age Progression: A Pyramid Architecture of GANs

CVPR 2018 Oral,文中提出了特徵提取器用於提出特定特徵,原因是作者認為相同年齡段的不同人臉有著相同的的紋理等特定資訊,而這個提取器就是提取出這些特徵。此外,該分類器是經過 age 分類任務預訓練好了的。

論文連結

arxiv.org/pdf/1711.1035

16、Convolutional Neural Networks with Alternately Updated Clique

北大團隊提出的新的 block 設計,achieves the performance of the state of the art with less parameters.。由於 block 內任意兩層互連,故實現了 top-bottom refinement,也就實現了 attention 機制。文中還提到了部分 technique。

論文連結

arxiv.org/abs.1802.1041

程式碼連結

github.com/iboing/Cliqu

17、Unsupervised Discovery of Object Landmarks as Structural Representations

CVPR 2018 Oral, 今年 CVPR Landmark 和 Attention 這兩個詞出現的頻率很高。現在看到的是第二版,對該文進行了更深入的研究後完成。

論文連結

arxiv.org/pdf/1804.0441

18、An Analysis of Scale Invariance in Object Detection - SNIP

CVPR 2018 Oral,文章主要解決網路處理不同 scale 圖片的網路策略。

論文連結

arxiv.org/pdf/1711.0818

19、Wasserstein Introspective Neural Networks

文章主要做的事情就是提出了基於 Wasserstein 的 INN,該組已經在 ICCV,NIPS 等多次提出並改進該模型,該模型主要做的就是將 GAN 中的 G 和 D 結合起來。

論文連結

arxiv.org/pdf/1711.0887

程式碼連結

github.com/kjunelee/WIN

20、Im2Flow: Motion Hallucination from Static Images for Action Recognition

CVPR 2018 Oral,用 u-net 訓練一個模型:輸入是一個靜態的幀,輸出的預測的五幀光流資訊,模型在 YouTube 資料集上訓練。

論文連結

arxiv.org/pdf/1712.0410

21、What have we learned from deep representations for action recognition?

CVPR 2018 Zisserman 的新論文,這篇文章就是 two-stream 模型中間層的視覺化方法,換句話說,就是探尋 two-stream 模型學到了怎樣的時空資訊。

論文連結

arxiv.org/pdf/1801.0141

22、Squeeze-and-Excitation Networks

考慮通道加權,用全域性池化後訓練的全連層作為權重,相當於在 channels 上加了一個 attention 機制,給不同的 channel 不同的權重。

論文連結

arxiv.org/pdf/1709.0150

程式碼連結

github.com/hujie-frank/

23、Actor and Action Video Segmentation from a Sentence

CVPR 2018 Oral,本文定義了一個新的任務:給出一個句子,根據該句子分割視訊中的 actor 及其 action。

論文連結

arxiv.org/pdf/1803.0748

24、Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering

CVPR 2018 Oral,主題是 attention+VQA,本文的主要思路是用 faster-rcnn 提取出 proposal,然後用其做 image captioning 或者 VQA,該方法取得了 2017 VQA Challenge 的第一名。

論文連結

arxiv.org/pdf/1707.0799

程式碼連結

github.com/peteanderson

25、Embodied Question Answering

這篇文章主要定義了一個新的 task 並給出了一個數據集。將一個 agent 隨機丟進一個房間,向他提出一個問題,這個 agent 需要自己導航並回答問題。

論文連結

arxiv.org/pdf/1711.1154

26、Taskonomy: Disentangling Task Transfer Learning

本文定義了一個新的任務,針對在視覺內的遷移學習,並提出了一個蠻大的資料庫, 定義的任務是這樣的:vision task 類目很多,只針對某個問題來解決的話,會需要很大的標註的資料集,但我們不難想到的是,一個視覺任務的解決應該能夠一定程度的解決另一個視覺任務,畢竟一個成熟模型的構建意味著對該 image 的一定的理解,而這部分的理解的一部分或許對另一個 task 有助益,例,物體 relation 的理解對深度資訊的學習毫無疑問是有著助益的。

論文連結

arxiv.org/pdf/1804.0832

程式碼連結

github.com/StanfordVL/t

27、Detail-Preserving Pooling in Deep Networks

CVPR 2018 Oral,顧名思義,提出了保留 detail 的池化方法。 max/avg pooling 一個只選取最大而忽略與周圍畫素的關聯性,一個重視關聯性卻又直接抹平,並且在實際梯度計算中也有一些 drawback,所以該文提出了這個新方法,一句話概括,就是在池化過程中學了一個動態的 weight。

論文連結

arxiv.org/pdf/1804.0407

程式碼連結

github.com/visinf/dpp

28、High-Resolution Image Synthesis and Semantic Manipulation with Conditional GANs

CVPR 2018 Oral,本文解決了 GAN 生成高解析度突破的問題,解析度達到了 2048*1024,方法精細,值得深入來看。

論文連結

arxiv.org/pdf/1711,1158

程式碼連結

github.com/NVIDIA/pix2p

29、Feature Space Transfer for Data Augmentation

CVPR 2018 ORAL,用GAN生成新資料。

論文連結

arxiv.org/pdf/1801.0435

30、StarGAN: Unified Generative Adversarial Networks for Multi-Domain Image-to-Image Translation

這裡的 domain 是指標對資料集中的 attribute,根據 attribute 來劃分的,比如相對於髮色而言,金髮是一個 domain,黑髮是一個 domain ,作者在本文提出了一個可以解決 multiple domain translation 的 translator。

論文連結

arxiv.org/pdf/1711.0902

程式碼連結

github.com/yunjey/StarG

31、Discriminative Learning of Latent Features for Zero-Shot Recognition

CVPR 2018 Oral,Zero-Shot Learning 就是尋求將學習到的特徵對映到另一個空間中,從而 map 到 seen 及 unseen 的屬性或者 label 上。這篇文章的主要亮點在於學習了已定義label的同時,學習了latent attribute(隱含屬性)。

論文連結

arxiv.org/pdf/1803.0673

32、Relation Networks for Object Detection