2020.10.11-基於改進AlexNet的廣域複雜環境下遮擋獼猴桃目標識別
主要巨集觀問題
這篇論文要解決什麼問題?
晴天(白天逆光、側逆光)、陰天及夜間補光條件下的廣域複雜環境中獼猴桃因枝葉遮擋或部分果實重疊遮擋所導致的識別精度較低的問題。
這篇論文用了什麼方法?
使用以Im-AlexNet為BackBone的Faster RCNN
這篇論文的創新點是什麼?
作者最引以為豪的結論是什麼?
對AlexNet網路進行引數修改,將網路的識別精度提高到了96.00%,且識別單幅影象的時間約為1s,可以滿足獼猴桃採摘機器人在實際生產中對視覺系統識別精度及識別速度的要求。
利用搭建的獼猴桃採摘機器人試驗平臺,對獼猴桃的識別進行了測試,比其他網路具有更高的識別精度。
這篇論文可以達到什麼效果?
對晴天逆光、晴天側逆光、陰天和夜間補光條件下存在遮擋情況的影象識別精度為96.00%,單幅影象的識別時間約為1s。
用的什麼對比演算法?
以LeNet、AlexNet 和 VGG16 為BackBone的Faster RCNN。
效果比對比演算法高了多少?
在相同資料集下,Im AlexNet 網路識別精度比 LeNet、AlexNet 和 VGG16 3 種網路識別精度的平均值高出 5.74 個百分點。
晴天逆光(Sunnybacklight,SB)、
側逆光(Sunnyrembrandtlight,SR)、
陰天(Cloudy,CL)
夜間補光(Nightwithillumination,NI;光照強度為30~50lx)
這篇論文是如何展開討論的?
不同光照條件下的識別結果
對存在遮擋的
這篇論文的難點是什麼?
這篇論文存在的問題是什麼?
作者的未來展望是什麼?
技術細節
主要的操作步驟是什麼?
網路在原始AlexNet的基礎上有哪些改進改進?
保留AlexNet原網路的卷積層,同時對全連線層引數進行調整。L6為768,L7為256,L8為2。
損失函式:二次均方誤差,MSSE
對網路進行修改的依據是什麼
由於卷積層的作用是提取影象特徵,所有直接使用AlexNet網路的卷積層引數,載入預訓練權重,而全連線層是用來分類的,所以更換AlexNet最後的一個全連線層的引數1000為2。
原來是1000類的識別,現在變成了一個2分類的識別精度肯定是會有所提高。
並對網路進行調參,通過將AlexNet中L6、L7的全連線層引數從2^4~2^14依次設定進行多輪訓練,並將L6、L7全連線層在不同引數設定下的網路識別精度(Averageprecision,AP)VAP進行對比,識別精度在不同引數設定下的統計結果,如表2所示。經對測試集進行試驗得出,當AlexNet中的全連線層L6、L7的節點數為768和256時,改進的AlexNet對獼猴桃果實識別精度最高。
資料集的來源
本文試驗樣本資料庫的影象採集地點選自陝西省秦嶺北麓獼猴桃產區西北農林科技大學(眉縣)獼猴桃試驗站,以海沃德獼猴桃作為本研究所需影象採集物件。
資料集有多大?
採集廣域複雜環境中晴天逆光、晴天側逆光、陰天和夜間補光條件下存在遮擋情況的4類樣本影象共1823幅,影象總共包含獼猴桃果實樣本約為 46 394 個,建立試驗樣本資料庫進行訓練並測試。
將所採集樣本統一設定為jpg格式的多尺度RGB影象(解析度為640畫素x360畫素、640畫素x480畫素、1920畫素x1080畫素),以避免因棚架高度不均勻造成的遮擋果實影象多樣性的影響。
資料集的預處理?
本研究將試驗樣本資料庫中的1823幅獼猴桃樣本影象,進行亮度、對比度調整,分別將亮度、對比度設定為60%、70%、80%、90%、110%、120%、130%、140%,並將高亮度設定為120%和140%。
將試驗樣本進行資料增強(Data augmentation),經擴充後,樣本集影象數量增加到21147幅。隨機抽選65%的樣本資料(15132幅)作為訓練集,剩餘35%樣本資料(6015幅)作為測試集。
使用的硬體裝置
網路的訓練引數
對候選區域網路RPN進行多輪訓練並進行測試試驗。具體訓練過程中,將起始學習率(Learningrate)設為0.001,每批影象數量設定為64,動量(Momentum)設定為0.9,權值衰減(Decay)設定為0.0005,最大迭代次數設定為60次;並在L6、L7全連線層中加入Dropout層,以確保每層提取特徵的相互獨立,同時將防止過擬合Dropout設定為0.4,此時網路的識別精度較高。
ImAlexNet最終輸出為獼猴桃目標果實的識別結果,為提高獼猴桃目標的識別精度,本研究僅保留置信度大於0.85的目標。
實驗如何驗證?
嵌入式平臺中+機器人視覺識別模組中進行
論文寫作層面
這篇論文的寫作流程是怎樣的?
這篇論文的寫作過程中存在的問題是什麼?
這篇論文如何處理對自己不利的資料?
這篇論文的寫作過程中有什麼值得借鑑的地方?
將深度學習演算法放到了嵌入式平臺上進行驗證。
不懂的概念
Im-AlexNet具體是什麼模型?
AlexNet網路的卷積層結構不變,將最後一個全連線層的引數設定為2,這個自己提出來的AlexNet網路就自己命名為Im AlexNet。
什麼叫做廣域複雜環境?
AlexNet網路的結構引數分別是什麼樣的?
AlexNet L6、L7 的節點數原來是多少?
L6:4096
L7:4096