基於深度學習的場景分類演算法

阿新 • • 發佈：2019-02-16

目前出現的相對流行的場景分類方法主要有以下三類：

（1） 基於物件的場景分類：

這種分類方法以物件為識別單位，根據場景中出現的特定物件來區分不同的場景；

基於視覺的場景分類方法大部分都是以物件為單位的，也就是說，通過識別一些有

代表性的物件來確定自然界的位置。典型的基於物件的場景分類方法有以下的中間步驟：

特徵提取、重組和物件識別。

缺點：底層的錯誤會隨著處理的深入而被放大。例如，上位層中小物件的識別往往會受到下屬層

相機感測器的原始噪聲或者光照變化條件的影響。尤其是在寬敞的環境下，目標往往會非常分散，

這種方法的應用也受到了限制。需要指出的是，該方法需要選擇特定環境中的一些固定對

象，一般使用深度網路提取物件特徵，並進行分類。

演算法：AlexNet。

除了傳統的卷積層、pooling層、全連線層。AlexNet加入了

（1）非線性啟用函式：ReLU；

（2）防止過擬合的方法：Dropout，Dataaugmentation。同時，使用多個GPU，LRN歸一化層。

演算法：VGG-Net。

不同於AlexNet的地方是：VGG-Net使用更多的層，通常有16－19層，而AlexNet只有8層。

同時，VGG-Net的所有 convolutional layer 使用同樣大小的 convolutional filter，大小為 3 x 3。

演算法：GoogLeNet。

提出的Inception結構是主要的創新點，這是（Network In Network）的結構，即原來的結點也是一個網路。

在單層卷積層上使用不同尺度的卷積核就可以提取不同尺寸的特徵，單層的特徵提取能力增強了。其使用之後整個網路結構的寬度和深度都可擴大，能夠帶來2-3倍的效能提升。

演算法：ResNet。

ResNet引入了殘差網路結構（residual network），通過在輸出與輸入之間引入一個shortcut connection,而不是簡單的堆疊網路，這樣可以解決網路由於很深出現梯度消失的問題，從而可可以把網路做的很深。這種方法目前也是業界最高水準了。

（2）基於區域的場景分類；

首先通過目標候選候選區域選擇演算法，生成一系列候選目標區域，

然後通過深度神經網路提取候選目標區域特徵，並用這些特徵進行分類。

演算法：RCNN

技術路線：selective search + CNN + SVMs

演算法：Fast-R-CNN

步驟：輸入一幅影象和Selective Search方法生成的一系列Proposals，通過一系列卷積層

和Pooling層生成feature map,然後用RoI（region ofineterst）層處理最後一個卷積層

得到的feature map為每一個proposal生成一個定長的特徵向量roi_pool5。

RoI層的輸出roi_pool5接著輸入到全連線層, 產生最終用於多工學習的特徵並用於

計算多工Loss。

全連線輸出包括兩個分支：

1.SoftMax Loss:計算K+1類的分類Loss函式，其中K表示K個目標類別。

2.RegressionLoss:即K+1的分類結果相應的Proposal的Bounding Box四個角點座標值。

最終將所有結果通過非極大抑制處理產生最終的目標檢測和識別結果。

演算法：Faster-R-CNN：

Faster-R-CNN演算法由兩大模組組成：1.PRN候選框提取模組 2.Fast R-CNN檢測模組。

其中，RPN是全卷積神經網路，通過共享卷積層特徵可以實現proposal的提取；

FastR-CNN基於RPN提取的proposal檢測並識別proposal中的目標。

（3）基於上下文的場景分類：

這類方法不同於前面兩種演算法，而將場景影象看作全域性物件而非影象中的某一物件或細節，

這樣可以降低區域性噪聲對場景分類的影響。

將輸入圖片作為一個特徵，並提取可以概括影象統計或語義的低維特徵。該類方法的目的

即為提高場景分類的魯棒性。因為自然圖片中很容易摻雜一些隨機噪聲，這類噪聲會對

區域性處理造成災難性的影響，而對於全域性影象卻可以通過平均數來降低這種影響。

基於上下文的方法，通過識別全域性物件，而非場景中的小物件集合或者準確的區域邊界，

因此不需要處理小的孤立區域的噪聲和低階圖片的變化，其解決了分割和目標識別分類方法遇到的問題。

演算法：基於Gist的場景分類

步驟：通過 Gist 特徵提取場景影象的全域性特徵。Gist 特徵是一種生物啟發式特徵，

該特徵模擬人的視覺，形成對外部世界的一種空間表

示，捕獲影象中的上下文資訊。Gist 特徵通過多尺度

多方向 Gabor 濾波器組對場景影象進行濾波，將濾波後

的影象劃分為 4 × 4 的網格，然後各個網格採用離散傅

裡葉變換和視窗傅立葉變換提取影象的全域性特徵資訊。

用CNN 進一步學習更深層次的特徵，並在 CNN 最高層進行場景分類

學習筆記之——基於深度學習的分類網路

之前博文介紹了基於深度學習的常用的檢測網路《學習筆記之——基於深度學習的目標檢測演算法》，本博文為常用的CNN分類卷積網路介紹，本博文的主要內容來自於R&C團隊的成員的調研報告以及本人的理解~如有不當之處，還請各位看客賜教哈~好，下面

基於深度學習的推薦演算法實現（以MovieLens 1M資料為例）

前言本專案使用文字卷積神經網路，並使用MovieLens資料集完成電影推薦的任務。推薦系統在日常的網路應用中無處不在，比如網上購物、網上買書、新聞app、社交網路、音樂網站、電影網站等等等等，有人的地方就有推薦。根據個人的喜好，相同喜好人群的習慣等資訊進行個性化

基於深度學習的場景分類演算法

目前出現的相對流行的場景分類方法主要有以下三類：（1）基於物件的場景分類：這種分類方法以物件為識別單位，根據場景中出現的特定物件來區分不同的場景；基於視覺的場景分類方法大部分都是以物件為單位的，也就是說，通過識別一些有代表性的物件來確定自然界的位置。

基於深度學習和遷移學習的遙感影象場景分類實踐（AlexNet、ResNet）

卷積神經網路（CNN）在影象處理方面有很多出色的表現，在ImageNet上有很多成功的模型都是基於CNN的。AlexNet是具有歷史意義的一個網路，2012年提出來當年獲得了當年的ImageNet LSVRC比賽的冠軍，此後ImageNet LSVRC的冠軍都是都是用CNN做的，並且層

基於深度學習的文字分類6大演算法-原理、結構、論文、原始碼打包分享

導讀：文字分類是NLP領域一項基礎工作，在工業界擁有大量且豐富的應用場景。傳統的文字分類需要依賴很多詞法、句法相關的human-extracted feature，自2012年深度學習技術快速發展之後，尤其是迴圈神經網路RNN、卷積神經網路CNN在NLP領域逐漸獲得廣

基於深度學習的目標檢測演算法綜述（一）（截止20180821）

參考：https://zhuanlan.zhihu.com/p/40047760 目標檢測（Object Detection）是計算機視覺領域的基本任務之一，學術界已有將近二十年的研究歷史。近些年隨著深度學習技術的火熱發展，目標檢測演算法也從基於手工特徵的傳統演算法轉向了基於深度神經網路的檢測技

基於深度學習的目標檢測演算法綜述（三）（截止20180821）

參考：https://zhuanlan.zhihu.com/p/40102001 基於深度學習的目標檢測演算法綜述分為三部分： 1. Two/One stage演算法改進。這部分將主要總結在two/one stage經典網路上改進的系列論文，包括Faster R-CNN、YOLO、SSD等經

基於深度學習的目標檢測演算法綜述（二）（截止20180821）

參考：https://zhuanlan.zhihu.com/p/40020809 基於深度學習的目標檢測演算法綜述分為三部分： 1. Two/One stage演算法改進。這部分將主要總結在two/one stage經典網路上改進的系列論文，包括Faster R-CNN、YOLO、SSD等經

學習筆記之——基於深度學習的目標檢測演算法

國慶假期閒來無事~又正好打算入門基於深度學習的視覺檢測領域，就利用這個時間來寫一份學習的博文~本博文主要是本人的學習筆記與調研報告（不涉及商業用途），博文的部分來自我團隊的幾位成員的調研報告（由於隱私關係，不公告他們的名字了哈~），同時結合

基於深度學習的廣告CTR預估演算法

數十款阿里雲產品限時折扣中，趕緊點選這裡，領劵開始雲上實踐吧！演講嘉賓簡介：朱小強，花名懷人，阿里媽媽高階演算法專家，領導了核心的排序演算法與機器學習平臺團隊，負責阿里精準展示廣告的CTR/CVR預估系統/演算法

基於深度學習的目標檢測演算法綜述：演算法改進

想了解深度學習的小夥伴們，看一下！以後自己學深度學習了，再來看此貼！只能發一個連結了： https://mp.weixin.qq.com/s?__biz=MzU4Nzc0NDI1NA==&mid=2247483731&idx=1&sn=37667093807751

[分享] Python實現的基於深度學習的手寫數字識別演算法

本文將採用深度學習中的卷積神經網路來訓練手寫數字識別模型。使用卷積神經網路建立合理的模型結構，利用卷積層中設定一定數目的卷積核（即濾波器），通過訓練資料使模型學習到能夠反映出十個不同手寫提數字特徵的卷積核權值，最後通過全連線層使用softmax函式給出預測數字圖對應每種數字可能性的概率多少。本文以學習基於

基於深度學習的三維點雲分類的介紹

轉自博主 particle，該文章翻譯自http://www.itzikbs.com/3d-point-cloud-classification-using-deep-learning 在過去的這些年裡，對二維影象已經有了大量深入的研究，並且有著長足的發

基於深度學習的目標檢測演算法綜述（一）

前言目標檢測（Object Detection）是計算機視覺領域的基本任務之一，學術界已有將近二十年的研究歷史。近些年隨著深度學習技術的火熱發展，目標檢測演算法也從基於手工特徵的傳統演算法轉向了基於深度神經網路的檢測技術。從最初2013年提出的R-CNN、OverFeat

基於深度學習的目標檢測演算法綜述（二）

前言基於深度學習的目標檢測演算法綜述分為三部分： 1. Two/One stage演算法改進。這部分將主要總結在two/one stage經典網路上改進的系列論文，包括Faster R-CNN、YOLO、SSD等經典論文的升級版本。 2. 解決方案。這部分論文對物體檢

【基於深度學習的細粒度分類筆記8】深度學習模型引數量(weights)計算，決定訓練模型最終的大小

Draw_convnet 這幅圖是通過開源的工具draw_convnet(https://github.com/gwding/draw_convnet)生成的。在清楚整個前向計算網路中的每一個層的輸入輸出以及引數設定後可以自己手動畫出計算圖出來，對於引數量計算就很直觀了

基於深度學習的性別分類

所謂性別分類指的是給定一張圖片，輸出其中人臉的性別（男性或者女性），由於準確率比之前有大幅提升，基於深度學習的方法目前佔據了主流，CVPR2015上曾發表了一篇基於AlexNet的論文，詳細分析參見基於 CNN的年齡和性別檢測其存在的問題如下: 1是結構偏舊，畢竟15年

基於深度學習的遙感影象分類總概

部落格轉載自：https://blog.csdn.net/qq_40116035/article/details/81414835 傳統的分類方法分兩種：監督分類和非監督分類。監督分類要求對所要分類的地區必須要有先驗的類別知識，即先要從所研究地區中選擇出所有要區分的各類地物的訓練區，用於建立

基於深度學習的影象語義分割演算法綜述（截止20180715）

這篇文章講述卷積神經網路在影象語義分割（semantic image segmentation）的應用。影象分割這項計算機視覺任務需要判定一張圖片中特定區域的所屬類別。這個影象裡有什麼？它在影象中哪個位置？更具體地說，影象語義分割的目標是將影象的每個畫素所

基於深度學習的文字分類方法庫（NLP）

注：本文翻譯自GitHub上的一篇介紹，介紹了基於深度學習的文字分類問題。程式碼和部分模型介紹在GitHub上，文末有連結。這個庫的目的是探索用深度學習進行NLP文字分類的方法。它具有文字分類的各種基準模型。它還支援多標籤分類，其中多標籤與句子或文件相關聯。雖然這些模型很多都

基於深度學習的場景分類演算法

相關推薦