【論文筆記】Pyramidal Convolution: Rethinking Convolutional Neural Networks for Visual Recognition

阿新 • • 發佈：2020-06-24

地址：https://arxiv.org/pdf/2006.11538.pdf

github：https://github.com/iduta/pyconv

目前的卷積神經網路普遍使用3×3的卷積神經網路，通過堆疊3×3的卷積核和下采樣層，會在減少影象的大小的同時增加感受野，使用小尺度的卷積核存在兩個問題：

實際感受野的大小比理論上的感受野大小要小得多。
在沒有獲得足夠的上下文資訊之前就對輸入影象進行下采樣，會影響學習過程和網路的識別效能。由於感受野不足夠大來捕獲場景中不同的依賴，以至於有用的細節就損失掉了。

大體來說就是不同物件在不同場景中可能出現各種各樣的大小，或者在同一場景中，相同物件也可能出現不同的大小，使用傳統的3×3卷積就不能夠學習到這種多樣性。

主要貢獻：提出了金字塔卷積，能夠捕獲不同層級的細節資訊，該網路是有效的，與標準的卷積相比只增加了少量的引數量和計算量，並將該網路擴充套件到了影象分類、場景識別、語義分割、目標檢測、視訊分類中。

直接看金字塔卷積，很直觀的就是在空間維度上，卷積核大小從上至下依次減少，在通道維度上，卷積核的數量（通道的數目）依次增加，最後這些特徵圖拼接起來。

這裡要提一下引數量parameters和浮點數計算量FLOPs的計算公式：

$K_{1}$表示的是卷積核的大小，$FM_{i}$表示輸入特徵圖的通道數，$FM_{o}$表示輸出的通道數，W、H表示輸出特徵圖的寬和高。

另一個就是組卷積：

將特徵按通道進行分組，然後分別進行卷積操作。

上述分別說明瞭每一個層的卷積操作所帶來的引數量和浮點數計算量。

另外還強調了，為了簡便創造出不同的金字塔卷積的網路，每層的金字塔卷積輸入的特徵圖數目、每層的金字塔的分組通道數、每層的金字塔卷積的輸出特徵圖數目最好是2的冪。

金字塔卷積網路應用在影象分類中？

瓶頸金字塔殘差塊：

所提出的網路結構：

需要注意的是該網路與原始的殘差網路相比，去掉了最初的max pooling。也就是說現在4組卷積塊都是在第一個block是進行下采樣的。具體原因還是直接看英文比較好：

其餘的任務就不仔細看了，知道大體架構差不多了。

金字塔卷積網路應用在語義分割中？

金字塔卷積網路應用在目標檢測中？

部分結果：

【論文筆記】Pyramidal Convolution: Rethinking Convolutional Neural Networks for Visual Recognition

地址：https://arxiv.org/pdf/2006.11538.pdf github：https://github.com/iduta/pyconv 目前的卷積神經網路普遍使用3×3的卷積神經網路，通過堆疊3×3的卷積核和下采樣層，會在減少影象的大小的同時增加

【論文筆記】LightGCN: Simplifying and Powering Graph Convolution Network for Recommendation

本文提出了一種輕型但是有效的GCN網路用於推薦系統，它捨棄了傳統GCN的特徵變換和非線性啟用，並通過實驗驗證了這兩種操作對協同過濾是無效的，同時提出了一種輕量級的GCN網路構建模型（LightGCN）用於推薦

【論文筆記】《FLchain: Federated Learning via MEC-enabled Blockchain Network》精讀筆記

Information of the paper： DOI:10.23919/APNOMS.2019.8892848 目錄 1. Abstract 2. Preliminaries and Definitions

【論文筆記】Neural Collaborative Filtering

摘要近幾年來，神經網路已經在聲音識別等領域取得了巨大的成功，然而關於推薦系統的神經網路研究卻很少有人關注。在本文中，我們提出了一種新的基於神經網路的方法解決推薦系統中的關鍵問題--協同過濾(基於

【論文筆記】A Survey on Deep Learning for Named Entity Recognition

本筆記理出來綜述中的點，並將大體的論文都列出，方便日後調研使用查詢，詳細可以看論文。

【論文筆記】Semi-Supervised Crowd Counting via Self-Training on Surrogate Tasks

1. 論文題目《Semi-Supervised Crowd Counting via Self-Training on Surrogate Tasks》中文：通過輔助任務上自訓練的半監督人群計數 2. 作者以及研究單位作者分別來自四川大學、阿德萊德大學、伍倫貢大

【論文筆記】Learn Spelling from Teachers: Transferring Knowledge from LM to Seq-to-Seq Speech Recognition

題目 Learn Spelling from Teachers: Transferring Knowledge from Language Models to Sequence-to-Sequence Speech Recognition

【論文筆記】Improving Transformer-based End-to-End Speech Recognition with CTC and LM Integration

題目 Improving Transformer-based End-to-End Speech Recognition with Connectionist Temporal Classification and Language Model Integration

【論文筆記】Cascade R-CNN：通過多次迴歸提高檢測質量

Introduction 在論文的開始，作者提出了\"close\" false positive，這些false positive比較接近但不是true positive，使得檢測器難以區分\"close\" false positive和true positive，這是目標檢測的主要難點之一。當

【論文筆記】SamWalker: Social Recommendation with Informative Sampling Strategy

這篇文章提出了一個利用社交網路資訊的推薦模型SamWalker。SamWalker可以建模使用者和物品之間的曝光概率，並提出用社交網路隨機遊走進行負取樣的方式來替代曝光概率的計算，降低模型計算複雜度。此外，模型還可以

【論文筆記】 Denoising Implicit Feedback for Recommendation

本文主要研究並解決推薦系統的隱式反饋資料中**正樣本**存在噪聲，會損害推薦系統性能的問題。

論文閱讀筆記《Convolutional Neural Networks for Steel Surface Defect Detection from Photometric Stereo》

小樣本學習&元學習經典論文整理||持續更新核心思想本文提出一種使用光度立體影象（Photometric Stereo Images）對鋼軌表面缺陷進行檢測的方法，關於光度立體影象我沒找到特別詳細的介紹，大體的概

【程式碼精讀】Graph Convolution over Pruned Dependency Trees for Relation Extraction（1）

First, download and unzip GloVe vectors from the Stanford NLP group website, with: chmod +x download.sh; ./download.sh

【論文閱讀】iSAM: Personalizing an Artificial Intelligence Model for Emotion with Pleasure-Arousal-Dominance in Immersive Virtual Reality

1.這篇文章究竟講了什麼問題？使用人工智慧和沉浸式虛擬環境來學習和適應使用者的情感模型

【論文筆記】Pyramidal Convolution: Rethinking Convolutional Neural Networks for Visual Recognition

【論文筆記】Pyramidal Convolution: Rethinking Convolutional Neural Networks for Visual Recognition

【論文筆記】LightGCN: Simplifying and Powering Graph Convolution Network for Recommendation

【論文筆記】《FLchain: Federated Learning via MEC-enabled Blockchain Network》精讀筆記

【論文筆記】Neural Collaborative Filtering

【論文筆記】A Survey on Deep Learning for Named Entity Recognition

【論文筆記】Semi-Supervised Crowd Counting via Self-Training on Surrogate Tasks

【論文筆記】Learn Spelling from Teachers: Transferring Knowledge from LM to Seq-to-Seq Speech Recognition

【論文筆記】Improving Transformer-based End-to-End Speech Recognition with CTC and LM Integration

【論文筆記】Cascade R-CNN：通過多次迴歸提高檢測質量

【論文筆記】SamWalker: Social Recommendation with Informative Sampling Strategy

【論文筆記】 Denoising Implicit Feedback for Recommendation

論文閱讀筆記《Convolutional Neural Networks for Steel Surface Defect Detection from Photometric Stereo》

【程式碼精讀】Graph Convolution over Pruned Dependency Trees for Relation Extraction（1）

【論文閱讀】iSAM: Personalizing an Artificial Intelligence Model for Emotion with Pleasure-Arousal-Dominance in Immersive Virtual Reality

深度學習論文翻譯解析（九）：Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition

Long-term Recurrent Convolutional Networks for Visual Recognition and Description

SNN_文獻閱讀_Spiking Deep Convolutional Neural Networks for Energy-Efficient Object Recognition

【論文筆記（5）ECCV2020】Graph convolutional networks for learning with few clean and many noisy labels

【nlp論文筆記】 Glyce: Glyph-vectors for Chinese Character Representations

【論文筆記+復現踩坑】End-to-end Recovery of Human Shape and Pose(CVPR 2018)

【論文筆記】Pyramidal Convolution: Rethinking Convolutional Neural Networks for Visual Recognition

相關推薦