深度學習在CV領域的進展以及一些由深度學習演變的新技術

CV領域

這裡寫圖片描述

1.進展：如上圖所述，當前CV領域主要包括兩個大的方向，”低層次的感知” 和 “高層次的認知”。

2.主要的應用領域：視訊監控、人臉識別、醫學影象分析、自動駕駛、機器人、AR、VR

3.主要的技術：分類、目標檢測（識別)、分割、目標追蹤、邊緣檢測、姿勢評估、理解CNN、超解析度重建、序列學習、特徵檢測與匹配、影象標定，視訊標定、問答系統、圖片生成（文字生成影象）、視覺關注性和顯著性（質量評價）、人臉識別、3D重建、推薦系統、細粒度影象分析、影象壓縮

分類主要需要解決的問題是“我是誰？”
目標檢測主要需要解決的問題是“我是誰？我在哪裡？”
分割主要需要解決的問題是“我是誰？我在哪裡？你是否能夠正確分割我？”
目標追蹤主要需要解決的問題是“你能不能跟上我的步伐，儘快找到我？”
邊緣檢測主要需要解決的問題是：“如何準確的檢測到目標的邊緣？”
人體姿勢評估主要需要解決的問題是：“你需要通過我的姿勢判斷我在幹什麼？”
理解CNN主要需要解決的問題是：“從理論上深層次的去理解CNN的原理？”
超解析度重建主要需要解決的問題是：“你如何從低質量圖片獲得高質量的圖片？”
序列學習主要解決的問題是“你知道我的下一幅影象或者下一幀視訊是什麼嗎？”
特徵檢測與匹配主要需要解決的問題是“檢測影象的特徵，判斷相似程度？”
影象標定主要需要解決的問題是“你能說出影象中有什麼東西？他們在幹什麼呢？”
視訊標定主要需要解決的問題是“你知道我這幾幀視訊說明了什麼嗎？”
問答系統主要需要解決的問題是：“你能根據影象正確回答我提問的問題嗎？”
圖片生成主要需要解決的問題是：“我能通過你給的資訊準確的生成對應的圖片？”
視覺關注性和顯著性主要需要解決的問題是：“如何提出模擬人類視覺注意機制的模型？”
人臉識別主要需要解決的問題是：“機器如何準確的識別出同一個人在不同情況下的臉？”
3D重建主要需要解決的問題是“你能通過我給你的圖片生成對應的高質量3D點雲嗎？”
推薦系統主要需要解決的問題是“你能根據我的輸入給出準確的輸出嗎？”
細粒度影象分析主要需要解決的問題是“你能辨別出我是哪一種狗嗎？等這些更精細的任務”
影象壓縮主要需要解決的問題是“如何以較少的位元有損或者無損的表示原來的影象？”

注：
1. 以下我主要從CV領域中的各個小的領域入手，總結該領域中一些網路模型，基本上覆蓋到了各個領域，力求完整的收集各種經典的模型，順序基本上是按照時間的先後，一般最後是該領域最新提出來的方案，我主要的目的是做一個整理，方便自己和他人的使用，你不再需要去網上收集大把的資料，需要的是仔細分析這些模型，並提出自己新的模型。這裡面收集的論文質量都比較高，主要來自於ECCV、ICCV、CVPR、PAM、arxiv、ICLR、ACM等頂尖國際會議。並且為每篇論文都添加了連結。可以大大地節約你的時間。同時，我挑選出論文比較重要的網路模型或者整體架構，可以方便你去進行對比。有一個更好的全域性觀。具體細節需要你去仔細的閱讀論文。由於個人的精力有限，我只能做成這樣，希望大家能夠理解。謝謝。
2. 我會利用自己的業餘時間來更新新的模型，但是由於時間和精力有限，可能並不完整，我希望大家都能貢獻的一份力量，如果你發現新的模型，可以聯絡我，我會及時回覆大家，期待著的加入，讓我們一起服務大家！

如下圖所示：
這裡寫圖片描述

LeNet網路1：
這裡寫圖片描述

LeNet網路2：
這裡寫圖片描述

AlexNet網路1：
這裡寫圖片描述

AlexNet網路2：
這裡寫圖片描述

Delving Deep into Rectifiers: Surpassing Human-Level Performance on ImageNet Classification網路：
這裡寫圖片描述

GoogLeNet網路1：
這裡寫圖片描述

GoogLeNet網路2：
這裡寫圖片描述

Delving Deep into Rectifiers: Surpassing Human-Level Performance on ImageNet Classification網路：
這裡寫圖片描述

Batch Normalization：
這裡寫圖片描述

VGGNet網路1：
這裡寫圖片描述

VGGNet網路2：
這裡寫圖片描述

ResNet網路：
這裡寫圖片描述

InceptionV4網路：
這裡寫圖片描述

OVerfeat網路：
這裡寫圖片描述

R-CNN網路：
這裡寫圖片描述

SPP-Net網路：
這裡寫圖片描述

DeepID-Net網路：
這裡寫圖片描述

DeepBox網路：
這裡寫圖片描述

MR-CNN網路：
這裡寫圖片描述

Fast-RCNN網路：
這裡寫圖片描述

R-CNN minus R網路：
這裡寫圖片描述

End-to-end people detection in crowded scenes網路：
這裡寫圖片描述

Faster-RCNN網路：
這裡寫圖片描述

DenseBox網路：
這裡寫圖片描述

Weakly Supervised Object Localization with Multi-fold Multiple Instance Learning網路：
這裡寫圖片描述

R-FCN網路：
這裡寫圖片描述

YOLO和SDD網路：
這裡寫圖片描述

Inside-Outside Net網路：
這裡寫圖片描述

G-CNN網路：
這裡寫圖片描述

PVANET網路：
這裡寫圖片描述

Speed/accuracy trade-offs for modern convolutional object detectors：
這裡寫圖片描述

FCN網路1：
這裡寫圖片描述

FCN網路2：
這裡寫圖片描述

segNet網路：
這裡寫圖片描述

Deeplab網路：
這裡寫圖片描述

deconvNet網路：
這裡寫圖片描述

Conditional Random Fields as Recurrent Neural Networks網路：
這裡寫圖片描述

Semantic Segmentation using Adversarial Networks網路：
這裡寫圖片描述

SEC: Seed, Expand and Constrain網路：
這裡寫圖片描述

Efficient piecewise training of deep structured models for semantic segmentation網路：
這裡寫圖片描述

Semantic Image Segmentation via Deep Parsing Network網路：
這裡寫圖片描述

BoxSup: Exploiting Bounding Boxes to Supervise Convolutional Networks for Semantic Segmentation：
這裡寫圖片描述

Learning Deconvolution Network for Semantic Segmentation：
這裡寫圖片描述

PUSHING THE BOUNDARIES OF BOUNDARY DETECTION USING DEEP LEARNING：
這裡寫圖片描述

Decoupled Deep Neural Network for Semi-supervised Semantic Segmentation：
這裡寫圖片描述

Learning Transferrable Knowledge for Semantic Segmentation with Deep Convolutional Neural Network：
這裡寫圖片描述

Feedforward Semantic Segmentation With Zoom-Out Features網路：
這裡寫圖片描述

Joint Calibration for Semantic Segmentation：
這裡寫圖片描述

Hypercolumns for Object Segmentation and Fine-Grained Localization：
這裡寫圖片描述

Learning Hierarchical Features for Scene Labeling：
這裡寫圖片描述

MULTI-SCALE CONTEXT AGGREGATION BY DILATED CONVOLUTIONS：
這裡寫圖片描述

Segment-Phrase Table for Semantic Segmentation, Visual Entailment and Paraphrasing：
這裡寫圖片描述

Weakly supervised graph based semantic segmentation by learning communities of image-parts：
這裡寫圖片描述

Scene Parsing with Multiscale Feature Learning：
這裡寫圖片描述

DLT網路：
這裡寫圖片描述

Transferring Rich Feature Hierarchies for Robust Visual Tracking網路：
這裡寫圖片描述

FCNT網路：
這裡寫圖片描述

Hierarchical Convolutional Features for Visual Tracking網路：
這裡寫圖片描述

MDNet網路：
這裡寫圖片描述

DeepTracking網路：
這裡寫圖片描述

ecurrently Target-Attending Tracking網路：
這裡寫圖片描述

DeepTrack網路：
這裡寫圖片描述

Online Tracking by Learning Discriminative Saliency Map
with Convolutional Neural Network：
這裡寫圖片描述

HED網路：
這裡寫圖片描述

DeepEdge網路：
這裡寫圖片描述

DeepContour網路：
這裡寫圖片描述

DeepPose網路：
這裡寫圖片描述

JTCN網路：
這裡寫圖片描述

Flowing convnets for human pose estimation in videos網路：
這裡寫圖片描述

Stacked hourglass networks for human pose estimation網路：
這裡寫圖片描述

Convolutional pose machines網路：
這裡寫圖片描述

Deepcut網路：
這裡寫圖片描述

Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields網路：
這裡寫圖片描述

Visualizing and Understanding Convolutional Networks網路：
這裡寫圖片描述

Inverting Visual Representations with Convolutional Networks：
這裡寫圖片描述

Object Detectors Emerge in Deep Scene CNNs：
這裡寫圖片描述

Understanding Deep Image Representations by Inverting Them：
這裡寫圖片描述

Deep Neural Networks are Easily Fooled:High Confidence Predictions for Unrecognizable Images：
這裡寫圖片描述

Understanding image representations by measuring their equivariance and equivalence：
這裡寫圖片描述

Learning Iterative Image Reconstruction網路：
這裡寫圖片描述

Learning Iterative Image Reconstruction in the Neural Abstraction Pyramid：
這裡寫圖片描述

Learning a Deep Convolutional Network for Image Super-Resolution：
這裡寫圖片描述

Image Super-Resolution Using Deep Convolutional Networks：
這裡寫圖片描述

Accurate Image Super-Resolution Using Very Deep Convolutional Networks：
這裡寫圖片描述

Deeply-Recursive Convolutional Network for Image Super-Resolution：
這裡寫圖片描述

Deep Networks for Image Super-Resolution with Sparse Prior：
這裡寫圖片描述

Perceptual Losses for Real-Time Style Transfer and Super-Resolution：
這裡寫圖片描述

Photo-Realistic Single Image Super-Resolution Using a Generative Adversarial Network：
這裡寫圖片描述

Explain Images with Multimodal Recurrent Neural Networks：
這裡寫圖片描述

Unifying Visual-Semantic Embeddings with Multimodal Neural Language Models：
這裡寫圖片描述

Long-term Recurrent Convolutional Networks for Visual Recognition and Description：
這裡寫圖片描述

A Neural Image Caption Generator：
這裡寫圖片描述

Deep Visual-Semantic Alignments for Generating Image Description：
這裡寫圖片描述

Translating Videos to Natural Language Using Deep Recurrent Neural Networks：
這裡寫圖片描述

Learning a Recurrent Visual Representation for Image Caption Generation：
這裡寫圖片描述

From Captions to Visual Concepts and Back：
這裡寫圖片描述

Show, Attend, and Tell: Neural Image Caption Generation with Visual Attention：
這裡寫圖片描述

Phrase-based Image Captioning：
這裡寫圖片描述

Learning like a Child: Fast Novel Visual Concept Learning from Sentence Descriptions of Images：
這裡寫圖片描述

Exploring Nearest Neighbor Approaches for Image Captioning：
這裡寫圖片描述

Image Captioning with an Intermediate Attributes Layer：
這裡寫圖片描述

Learning language through pictures：
這裡寫圖片描述

Describing Multimedia Content using Attention-based Encoder-Decoder Networks：
這裡寫圖片描述

Image Representations and New Domains in Neural Image Captioning：
這裡寫圖片描述

Learning Query and Image Similarities with Ranking Canonical Correlation Analysis：
這裡寫圖片描述

Generative Adversarial Text to Image Synthesis：
這裡寫圖片描述

GENERATING IMAGES FROM CAPTIONS WITH ATTENTION：
這裡寫圖片描述

Long-term Recurrent Convolutional Networks for Visual Recognition and Description：
這裡寫圖片描述

Translating Videos to Natural Language Using Deep Recurrent Neural Networks：
這裡寫圖片描述

Joint Modeling Embedding and Translation to Bridge Video and Language：
這裡寫圖片描述

Sequence to Sequence–Video to Text：
這裡寫圖片描述

Describing Videos by Exploiting Temporal Structure:
這裡寫圖片描述

The Long-Short Story of Movie Description：
這裡寫圖片描述

Aligning Books and Movies: Towards Story-like Visual Explanations by Watching Movies and Reading Books：
這裡寫圖片描述

Describing Multimedia Content using Attention-based Encoder-Decoder Networks：
這裡寫圖片描述

Temporal Tessellation for Video Annotation and Summarization：
這裡寫圖片描述

Summarization-based Video Caption via Deep Neural Networks：
這裡寫圖片描述

Deep Learning for Video Classification and Captioning：
這裡寫圖片描述

問答系統

經典模型：

Ask Your Neurons: A Neural-based Approach to Answering Questions about Images
https://arxiv.org/pdf/1505.01121.pdf

Image Question Answering: A Visual Semantic Embedding Model and a New Dataset
https://arxiv.org/pdf/1505.02074.pdf

Dataset and Methods for Multilingual Image Question Answering
https://arxiv.org/pdf/1505.05612.pdf

Image Question Answering using Convolutional Neural Network with Dynamic Parameter Prediction

Dynamic Memory Networks for Visual and Textual Question Answering
https://arxiv.org/pdf/1603.01417v1.pdf

Multimodal Compact Bilinear Pooling for Visual Question Answering and Visual Grounding
https://arxiv.org/pdf/1606.01847.pdf

Training Recurrent Answering Units with Joint Loss Minimization for VQA
https://arxiv.org/pdf/1606.03647.pdf

VQA: Visual Question Answering：
這裡寫圖片描述

Ask Your Neurons: A Neural-based Approach to Answering Questions about Images：
這裡寫圖片描述

Image Question Answering: A Visual Semantic Embedding Model and a New Dataset：
這裡寫圖片描述

Stacked Attention Networks for Image Question Answering：
這裡寫圖片描述

Dataset and Methods for Multilingual Image Question Answering：
這裡寫圖片描述

Image Question Answering using Convolutional Neural Network with Dynamic Parameter Prediction：
這裡寫圖片描述

Dynamic Memory Networks for Visual and Textual Question Answering：
這裡寫圖片描述

Multimodal Residual Learning for Visual QA：
這裡寫圖片描述

Multimodal Compact Bilinear Pooling for Visual Question Answering and Visual Grounding：
這裡寫圖片描述

Training Recurrent Answering Units with Joint Loss Minimization for VQA：
這裡寫圖片描述

Hadamard Product for Low-rank Bilinear Pooling：
這裡寫圖片描述

Question Answering Using Deep Learning：
這裡寫圖片描述

Conditional Image Generation with PixelCNN Decoders：
這裡寫圖片描述

Learning to Generate Chairs with Convolutional Neural Networks：
這裡寫圖片描述

DRAW: A Recurrent Neural Network For Image Generation：
這裡寫圖片描述

Generative Adversarial Networks：
這裡寫圖片描述

Deep Generative Image Models using a Laplacian Pyramid of Adversarial Networks：
這裡寫圖片描述

A note on the evaluation of generative models：
這裡寫圖片描述

Variationally Auto-Encoded Deep Gaussian Processes：
這裡寫圖片描述

Generating Images from Captions with Attention：
這裡寫圖片描述

Unsupervised and Semi-supervised Learning with Categorical Generative Adversarial Networks：
這裡寫圖片描述

Censoring Representations with an Adversary：
這裡寫圖片描述

Distributional Smoothing with Virtual Adversarial Training：
這裡寫圖片描述

Generative Visual Manipulation on the Natural Image Manifold：
這裡寫圖片描述

Unsupervised Representation Learning with Deep Convolutional Generative Adversarial Networks：
這裡寫圖片描述

Wasserstein GAN：
這裡寫圖片描述

Loss-Sensitive Generative Adversarial Networks on Lipschitz Densities：
這裡寫圖片描述

Conditional Generative Adversarial Nets：
這裡寫圖片描述

InfoGAN: Interpretable Representation Learning by Information Maximizing Generative Adversarial Nets：
這裡寫圖片描述

Conditional Image Synthesis With Auxiliary Classifier GANs：
這裡寫圖片描述

SeqGAN: Sequence Generative Adversarial Nets with Policy Gradient：
這裡寫圖片描述

Improved Training of Wasserstein GANs：
這裡寫圖片描述

Beyond Face Rotation: Global and Local Perception GAN for Photorealistic and Identity Preserving Frontal View Synthesis：
這裡寫圖片描述

Predicting Eye Fixations using Convolutional Neural Networks：

深度學習在CV領域的進展以及一些由深度學習演變的新技術

深度學習在CV領域的進展以及一些由深度學習演變的新技術

第二篇 KinectV2結合opencv入門開發以及一些相關的學習資料

總結CNN的發展歷程，以及一些卷積操作的變形，附帶基礎的深度學習知識與公式

Linux學習- 相對路徑以及一些命令20180409

Hibernate學習一：Hebinate入門以及一些小問題

linux入門學習（二）：linux圖形化界面與命令行界面之間的切換，以及一些系統命令

【PHP學習】靜態檔案快取綜合小案例以及一些函式的注意點

深度學習BP演算法 BackPropagation以及詳細例子解析

mzy git學習，git協同開發忽略文件配置以及一些雜點(九)

入坑DL CV 一些基礎技能學習

平時積累的優秀部落格連結(linux windows android ios c/c++ java ACM open cv LeetCode 數學演算法前端機器/深度學習圖形影象加速 )

Pandas基礎以及一些pandas學習資料連結

深度學習: CV頂會 & CV頂刊

hive學習筆記以及一些linux命令

跑深度學習網路時碰到的一些問題記錄

深度學習在影象上的一些應用

java的I/O學習記錄（以及一些其他知識點）

深度學習Loss 種類彙總以及討論

【深度學習CV】SVM, Softmax損失函式

深度學習視覺領域常用資料集彙總

深度學習在CV領域的進展以及一些由深度學習演變的新技術

相關推薦