1. 程式人生 > >YOLO前篇---Real-Time Grasp Detection Using Convolutional Neural Networks

YOLO前篇---Real-Time Grasp Detection Using Convolutional Neural Networks

論文地址:https://arxiv.org/abs/1412.3128

1. 摘要

  • 比目前最好的方法提高了14%的精度,在GPU上能達到13FPS

2. 基於神經網路的抓取檢測

A 結構

  • 使用AlexNet網路架構,5個卷積層+3個全連線層,卷積層有正則化和最大池化層
  • 網路結構示意圖如下
    在這裡插入圖片描述

B 直接回歸抓取

  • 最後一個全連線層輸出6個神經元,前4個與位置和高度相關,另外2個用來表示方向
  • 該模型假設每幅影象只包含一個可抓取物件,這種假設的好處是不需要用基於滑動視窗的方法對每一個小塊進行分類
  • loss為最小化抓取位置的平方差,即L2 loss

C 迴歸+分類

  • 結構與B一樣,只需要在輸出層上加上與目標類別相關的神經元即可

D 多抓取檢測(MultiGrasp)

  • MultiGrasp把影象分成 N × N N\times N 個網格
  • 每個網格最多隻預測一個抓取目標
  • 如果某個網格要預測抓取目標,則該抓取目標中心必須落在該網格內
  • 網路的輸出為 N × N × 7 N \times N \times 7
    的預測,其中第1個通道為某個區域包含抓取物件的概率熱力圖,另外6個通道為該區域抓取物件的座標
  • 實驗採用 7 × 7 × 7 7 \times 7 \times 7 共343個神經元輸出
  • 訓練假設:
    a.MultiGrasp看一幅影象時,隨機選擇最多5個ground truth作為抓取目標。在構建熱力圖時,最多5個網格被填充為1,其餘的都置0
    b.在訓練時並不是對所有的 7 × 7 × 7 7 \times 7 \times 7 網格進行反向傳播(因為許多網格中並沒有抓取物件),而是隻對熱力圖通道中包含抓取目標的網格進行反向傳播

3. 實驗和評價