論文筆記 | Concept Mask:Large-scale Segmentation from semantic concepts
文章主要實現了以下任務:
給定一個概念和一張圖片,模型在影象上生產對應區域的mask。
文章主要實現思路:
- 建立影象特徵與word vector之間的對映關係,從而得到attention map
具體方式是:
- 利用PMI生產word vector
- 基礎網路(如resnet50)提取影象特徵之後進過GAP,然後經過三層 embeding 網路,使embeding結果與word vector距離儘量接近
- 去掉GAP,得到feature map,feature map與word vector求內積,表徵對該word的響應圖(attention map)
- 一幅圖對應多個影象時,求多個word vector的加權平均,權重利用idf求得
- attention map不夠精細,所以利用帶有bbox的資料進行refine
- 將影象與之前得到的attention map作為輸入,訓練一個二分類mask 分割模型
相關推薦
論文筆記 | Concept Mask:Large-scale Segmentation from semantic concepts
文章主要實現了以下任務: 給定一個概念和一張圖片,模型在影象上生產對應區域的mask。 文章主要實現思路: 建立影象特徵與word vector之間的對映關係,從而得到attention map 具體
論文閱讀筆記二十:MULTI-SCALE CONTEXT AGGREGATION BY DILATED CONVOLUTIONS(ICRL2016)
論文源址:https://arxiv.org/abs/1511.07122 tensorflow Github:https://github.com/ndrplz/dilation-tensorflow 摘要 該文提出了空洞卷積模型,在不降低解析
MXNet應用之一:Large Scale Image Classification
Tutorial地址: 一、MXNet簡介 1.概述(摘自開源中國社群) MXNet(輕量級機器學習庫) 是一款設計為效率和靈活性的深度學習框架。它允許你混合符號程式設計和指令式程式設計,從而最大限度提高效率和生產力。在其核心是一個動態的依賴排程,它能夠自動並行符
[深度學習論文筆記][arxiv 1804]ExFuse: Enhancing Feature Fusion for Semantic Segmentation
[arxiv 1804]ExFuse: Enhancing Feature Fusion for Semantic Segmentation Zhenli Zhang, Xiangyu Zhang, Chao Peng, Dazhi Cheng, Jian S
Joint Deep Learning For Pedestrian Detection(論文筆記-深度學習:行人檢測)
一、摘要: 行人檢測主要分為四部分:特徵提取、形變處理、遮擋處理和分類。現存方法都是四個部分獨立進行,本文聯合深度學習將四個部分結合在一起,最大化其能力。 二、引言
論文閱讀筆記四十一:Very Deep Convolutional Networks For Large-Scale Image Recongnition(VGG ICLR2015)
結合 等價 選擇 mac 不同的 works info 內存 enc 論文原址:https://arxiv.org/abs/1409.1556 代碼原址:https://github.com/machrisaa/tensorflow-vgg 摘要 本
論文閱讀筆記十八:ENet: A Deep Neural Network Architecture for Real-Time Semantic Segmentation
每一個 內核 基於 proc vgg 包含 rep 重要 偏差 論文源址:https://arxiv.org/abs/1606.02147 tensorflow github: https://github.com/kwotsin/TensorFlow-ENet 摘要
論文閱讀筆記二十:LinkNet: Exploiting Encoder Representations for Efficient Semantic Segmentation(CVPR2017)
源文網址:https://arxiv.org/abs/1707.03718 tensorflow程式碼:https://github.com/luofan18/linknet-tensorflow 摘要 畫素級分割不僅準確率上有要求,同時需要應用的實際中實時
論文閱讀筆記二十三:Rich feature hierarchies for accurate object detection and semantic segmentation Tech report(R-CNN CVPR2014)
論文源址:http://www.cs.berkeley.edu/~rbg/#girshick2014rcnn 摘要 在PASCAL VOC資料集上,最好的方法的思路是將低階資訊與較高層次的上下文資訊進行結合。該文的兩個亮點:(1)將CNN應用到re
論文筆記《Very Deep Convolutional Networks for Large-Scale Image Recognition》
VGGNet在2014年的ILSVRC競賽上,獲得了top-1 error的冠軍和top-5 error的第二名,錯誤率分別為24.7%和7.3%,top-5 error的第一名是GoogLeNet 6.7%。在圖片定位任務中,也獲得了冠軍。網路層數由之前的AlexNet 的8層提高到了最高19
Ng第十七課:大規模機器學習(Large Scale Machine Learning)
在線 src 化簡 ima 機器學習 learning 大型數據集 machine cnblogs 17.1 大型數據集的學習 17.2 隨機梯度下降法 17.3 微型批量梯度下降 17.4 隨機梯度下降收斂 17.5 在線學習 17.6 映射化簡和數據並行
論文筆記:目標追蹤-CVPR2014-Adaptive Color Attributes for Real-time Visual Tracking
exploit orm dom ons tail red 最好 早期 形式化 基於自適應顏色屬性的目標追蹤 Adaptive Color Attributes for Real-Time Visual Tracking 基於自適應顏色屬性的實時視覺追蹤 3月講的第一
VGGnet論文總結(VERY DEEP CONVOLUTIONAL NETWORKS FOR LARGE-SCALE IMAGE RECOGNITION)
lrn cli 共享 融合 loss sca 得到 同時 works VGGNet的主要貢獻: 1、增加了網絡結構的深度 2、使用了更小的filter(3*3) 1 introduction 這部分主要說明了,由於在所有的卷積網絡上使用了3*3的filter,所以使
Semi-supervised Segmentation of Optic Cup in Retinal Fundus Images Using Variational Autoencoder 論文筆記
str 很好 流程 Coding 測試 eat www tin nal MICCAI 2017年論文 Overview: 視杯視盤精確分割後,就可以計算杯盤比了,杯盤比是青光眼疾病的主要manifestation。以往的方法往往采用監督學習的方法,這樣需要大量的精確像素
論文筆記之:Collaborative Deep Reinforcement Learning for Joint Object Search
region format es2017 join sid col str bottom respond Collaborative Deep Reinforcement Learning for Joint Object Search CVPR 2017 Motiva
論文筆記:Fast(er) RCNN
這也 物體檢測 因此 sele 疑惑 修正 width 輸入 重點 在 RCNN 初步試水取得成功後,研究人員又迅速跟進,針對 RCNN 中的幾點不足提出改進,接連推出了 fast-rcnn 和 faster-rcnn。關於這兩篇論文,網上相關的文章實在是多如牛毛,因此,本
論文翻譯 DOTA:A Large-scale Dataset for Object Detection in Aerial Images
網絡 操作 邊框 允許 官方 靈活 數量級 image 轉化 簡介:武大遙感國重實驗室-夏桂松和華科電信學院-白翔等合作做的一個航拍圖像數據集 摘要: 目標檢測是計算機視覺領域一個重要且有挑戰性的問題。雖然過去的十幾年中目標檢測在自然場景已經有了較重要的成就
Person Re-identification 系列論文筆記(二):A Discriminatively Learned CNN Embedding for Person Re-identification
triplet put ali com multi 深度學習 native alt 出現 A Discriminatively Learned CNN Embedding for Person Re-identification Zheng Z, Zheng L, Ya
Person Re-identification 系列論文筆記(八):SPReID
最終 數據集 pipeline 論文筆記 cat cati 對齊 技術分享 通道 Human Semantic Parsing for Person Re-identification Kalayeh M M, Basaran E, Gokmen M, et al. H
論文筆記 Locality-Sensitive Deconvolution Networks with Gated Fusion for RGB-D Indoor Semantic Segmentation
extract pear rain bsp ble rgb oge nbsp png 用於RGB-D室內語義分割的具有門控融合的局部敏感反卷積網絡 abstract problem: indoor semantic segmentation using RGB