1. 程式人生 > >卷積神經網路—目標檢測 學習筆記(下)

卷積神經網路—目標檢測 學習筆記(下)

3.7 非極大值抑制(Non-max suppresion)

非極大值抑制,即只保留極大值(概率最大的預測結果)。
之前介紹的YOLO還存在的一個問題:同一個目標可能出現多個預測結果。如下圖所示:
NMS

confidence

對於右邊的汽車,會有三個網格認為中點落在了自己中,因而在顯示結果時會出現三個預測邊界框,這顯然是不正確。通過使用非極大值抑制可以較好地解決該問題。
演算法如下:
algorithm
經過非極大值抑制後結果如下圖:
result
注意:如果有多個分類,則需要對每個分類跑一次非極大值抑制。

3.8 Anchor Boxes

之前介紹的YOLO無法處理一個網格中存在多個目標的問題。為了改進YOLO,引入了anchor boxes的概念。
與之前一個網格對應一個結果不同,引入anchor boxes的YOLO每個網格對應多個anchor boxes,每個anchor boxes對應一個結果,相應的Y也發生了變化,具體見下圖:
anchor boxes

上圖中女人和車的中點落在了同一個網格中,但是依據形狀分配給了anchor box1和anchor box2。相應的,Y也由左邊的8維變成了16維(因為有兩種anchor boxes)
具體演算法描述見下:
algorithm

相關推薦

神經網路目標檢測 學習筆記

3.7 非極大值抑制(Non-max suppresion) 非極大值抑制,即只保留極大值(概率最大的預測結果)。 之前介紹的YOLO還存在的一個問題:同一個目標可能出現多個預測結果。如下圖所示: 對於右邊的汽車,會有三個網格認為中點落在了自己中,

cs231n斯坦福基於神經網路的CV學習筆記神經網路訓練細節

五,神經網路 注意點part1 例項:邏輯迴歸二層神經網路訓練函式 使用權重w和偏差值biase計算出第一個隱含層h,然後計算損失,評分,進行反向傳播回去 多種常用啟用函式(一般預設max(0,x)),如sigmoid函式具有飽和區梯度0,非零點中心,計算x複

吳恩達深度學習筆記神經網路(目標檢測)

3.1 目標定位 定位分類問題意味著我們不僅要用演算法判斷出圖片中是否有該物體,還要標記出它的位置,例如圖片有一輛汽車,我們需要用邊框把汽車圈起來。 影象分類問題已不陌生,例如輸入一張圖片到多層卷積神經網路,它會輸出一個特徵向量,並反饋給softmax來預測

神經網路研究綜述學習筆記

本文是學習周飛燕、金林鵬、董軍三位老師寫的卷積神經網路研究綜述寫的筆記。原文地址:https://wenku.baidu.com/view/3425581e0166f5335a8102d276a20029bc64637f.html早在2006年已經有人提出神經網路,但是組開始

神經網路與深度學習筆記

第四章 神經網路可以計算任何函式的視覺化證明     神經網路的一個最顯著的事實就是它可以計算任何的函式。不管這個函式是什麼樣,總會確保有一個神經網路能夠對任何可能的輸入xx,其值f(x)f(x)(或者某個足夠準確的近似)是網路的輸出。即使這個函式有很多輸入和

Keras神經網路識別CIFAR-10影象2

上一篇文章簡單介紹了卷積神經網路的結構,本篇文章則會利用上一篇文章的理論知識搭建神經網路模型來識別CIFAR-10影象。 2.Keras卷積神經網路識別CIFAR-10影象 首先簡單介紹一下什麼是CIFAR-10,CIFAR-10是是用於物件識別的已建立的計算機

深度學習十九基於空間金字塔池化的神經網路物體檢測

原文地址:http://blog.csdn.net/hjimce/article/details/50187655 作者:hjimce 一、相關理論    本篇博文主要講解大神何凱明2014年的paper:《Spatial Pyramid Pooling in Dee

深度學習神經網路物體檢測之感受野大小計算

1 感受野的概念   在卷積神經網路中,感受野的定義是 卷積神經網路每一層輸出的特徵圖(feature map)上的畫素點在原始影象上對映的區域大小。       RCNN論文中有一段描述,Alexnet網路pool5輸出的特徵圖上的畫

王小草【深度學習筆記第四彈--神經網路與遷移學習

標籤(空格分隔): 王小草深度學習筆記 1. 影象識別與定位 影象的相關任務可以分成以下兩大類和四小類: 影象識別,影象識別+定位,物體檢測,影象分割。 影象的定位就是指在這個圖片中不但識別出有只貓,還把貓在圖片中的位置給精確地摳出來今天我們來講

機器學習與深度學習系列連載: 第二部分 深度學習十二神經網路 3 經典的模型LeNet-5,AlexNet ,VGGNet,GoogLeNet,ResNet

卷積神經網路 3 經典的模型 經典的卷積神經網路模型是我們學習CNN的利器,不光是學習原理、架構、而且經典模型的超引數、引數,都是我們做遷移學習最好的源材料之一。 1. LeNet-5 [LeCun et al., 1998] 我們還是從CNN之父,LeCun大神在98年提出的模

基於空間金字塔池化的神經網路物體檢測

作者:hjimce 一、相關理論    本篇博文主要講解大神何凱明2014年的paper:《Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition》,這篇paper主要

利用tensorflow實現簡單的神經網路-對程式碼中相關函式介紹——遷移學習小記

  上篇文章對cnn進行了一些介紹,附了完整小例子程式碼,介紹了一部分函式概念,但是對我這樣的新手來說,程式碼中涉及的部分函式還是無法一下子全部理解。於是在本文中將對程式碼中使用的函式繼續進行一一介紹。 具體程式碼見上一篇(二) 一、 #定義輸入的placehoder,x是特徵

基於空間金字塔池化的神經網路物體檢測(SPPNET)(Spatial Pyramid Pooling)

1.解決的問題 當前的CNN輸入圖片尺寸是固定的,但是當進行圖片預處理的時候,往往會降低檢測的準確度。而SPPNET則可以輸入任意尺寸的圖片,並且使得最後的精度有所提升。 CNN中圖片的固定尺寸是受到全連線層的影響。因為全連線層我們的連線權值矩陣的大小W,經過訓

神經網路/CNN/深度學習在做分類訓練時不收斂的解決方案

1.背景介紹 訓練網路的過程就是網路學習影象特徵的過程,正所謂網路好用但是不好訓練,我算是真真切切的體會到了.之前訓練手寫漢字的時候,大概就花費了1個多小時,之前訓練幾十個分類的字元也耗費了很長的時間,逐漸讓我我點怕訓練了,不過今天,我好像找到了問題的解決方法,雖然不一定對每個人有用

神經網路物體檢測---空間金字塔池化的

一、相關理論   本篇博文主要講解大神何凱明2014年的paper:《Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition》,這篇paper主要的創新點在於提出了空間金字塔池

神經網路物體檢測之感受野大小計算

學習RCNN系列論文時, 出現了感受野(receptive field)的名詞, 感受野的尺寸大小是如何計算的,在網上沒有搜到特別詳細的介紹, 為了加深印象,記錄下自己對這一感念的理解,希望對理解基於CNN的物體檢測過程有所幫助。1 感受野的概念  在卷積神經網路中,感受野的

CNN神經網路應用於人臉識別詳細流程+程式碼實現)和相應的超引數解釋

DeepLearning tutorial(5)CNN卷積神經網路應用於人臉識別(詳細流程+程式碼實現) @author:wepon 本文主要講解將CNN應用於人臉識別的流程,程式基於Python+numpy+theano+PIL開發,採用類似LeNet5的

神經網路 + 機器視覺: L10_RNN_LSTM (斯坦福CS231n

完整的視訊課堂連結如下: 完整的視訊課堂投影片連線: 前一課堂筆記連結: RNN 是一個包含非常廣泛的應用領域與知識範圍的一大門類,他的全名又叫做 Recurrent Neural Network,也是神經網路的一種,但是差別就在於 RNN 讓神經網路中的節點(node

神經網路特徵圖視覺化自定義網路和VGG網路

藉助Keras和Opencv實現的神經網路中間層特徵圖的視覺化功能,方便我們研究CNN這個黑盒子裡到發生了什麼。 自定義網路特徵視覺化 程式碼: # coding: utf-8 from keras.models import Model import c

神經網路神經網路CNN的簡單實現部分Python原始碼

上週末利用python簡單實現了一個卷積神經網路,只包含一個卷積層和一個maxpooling層,pooling層後面的多層神經網路採用了softmax形式的輸出。實驗輸入仍然採用MNIST影象使用10個feature map時,卷積和pooling的結果分別如下所示。