1. 程式人生 > >深度學習在影象分類中的發展

深度學習在影象分類中的發展

深度學習是一門比較年輕的研究方向,從機器視覺到語音識別,以及自然語言識別等領域都有它的身影。說實話,喵哥此前只是知道有這個學科,但是並不清楚它到底是什麼,怎麼使用它。其實現在也是一無所知,但是我越發覺得深度學習是我們今後特別需要的專業,今天寫下這篇綜述性的文章,希望可以對以後學習有所幫助。

深度學習是由Hinton等於2006年提出【1】。首先提出的是自動編碼的多層次結構模型,後來在限制玻爾茲曼機(Restricted Boltzmann Machine,RBM)的基礎上拓展出了深度置信網路(Deep Belief Network,DBN)。它是一種無監督性逐層訓練演算法,在優化並解決深層結構問題方面有很大改善【2】。另外,SERMANET【3】提出了卷積神經網路(Convolutional Neural Network,CNN)——一個較為直觀的多層結構網路學習演算法,利用影象空間資訊減少訓練引數數量從而在提高模型訓練方面有了很大的改善。深度學習通過分層式結構的多層資訊處理來進行非監督的特徵學習和影象分類, 模擬人腦學習和分析的能力, 形成一個神經網路結構【4-6】。它可以像人腦一樣對外界輸入事物進行分析和理解,該網路優勢被廣泛應用於影象、 文字、 聲音等研究領域。

影象分類是要解決圖片中是否包含某類物體的問題,對影象進行特徵描述是物體分類的主要研究內容。一般說來,物體分類演算法通過手工特徵或者特徵學習方法對整個影象進行全域性描述,然後使用分類器判斷是否存 在某類物體。應用比較廣泛的影象特徵有SIFT,HOG,SURF等。這些對影象分類的研究中,大多數特徵提取過程是人工設計的, 通過淺層學習獲得影象底層特徵,與影象高階主題間還存在很大的“語義鴻溝” 。而深度學習利用設定好的網路結構, 完全從訓練資料中學習影象的層級結構性特徵, 能夠提取更加接近影象高階語義的抽象特徵, 因此在影象識別上的表現遠遠超過傳統方法。

卷積神經網路在特徵表示上具有極大的優越性,模型提取的特徵隨著網路深度的增加越來越抽象,越來越能表現影象主題語義,不確定性越少,識別能力越強。AlexNet 的成功證明了CNN 網路能夠提升影象分類的效果,其使用了 8 層的網路結構,獲得了 2012 年ImageNet 資料集上影象分類的冠軍【7】,為訓練深度卷積神經網路模型提供了參考。2014 年 GoogleNet 另闢蹊徑,從設計網路結構的角度來提升識別效果【8】。其主要貢獻是設計了 Inception 模組結構來捕捉不同尺度的特徵,通過 1×1 的卷積來進行降維。2014 年另外一個工作是 VGG,進一步證明了網路的深度在提升模型效果方面的重要性【9】。

2015 年最重要的一篇文章是關於深度殘差網路( ResNet) ,文章提出了擬合殘差網路的方法,能夠做到更好地訓練更深層的網路【10】。後續分類網路的發展如 Google 的 inception 系列,2017年的主流模型比如獲得最佳論文獎的 DenseNet 等都借鑑了 ResNet 的設計思 想。本文的模型也是基於ResNet 的基礎網路設計的。

雖然深度學習在影象分類和目標檢測上取得了巨大的進步,但仍有人質疑深度學習在工程中的應用效果。因為它無法很好地解決影象識別的另一大任務——影象分割。影象分割與影象分類的最大區別是影象分割要實現對每個畫素的分類。而真正解決這一問題的是 2015 年 CVPR的一篇影象語義分割的文章【11】,自此以後一系列的用於影象分割的改進神經網路模型被提出,從 FCN,DecovNet,DilatedNet到 DeepLab,PSPNet,分割精度進一步提升。

參考文獻:

【1】Reducing the Dimensionality of Data with Neural Network

【2】RepresentationLearning: A Review and New Perspectives

【3】Convolutional Neural Networks Applied to House Numbers Digit Classification

【4】Deep Learning  

【5】Basic Concepts of Artificial Neural Network ( ANN) Modeling and Its Application in Pharmaceutical    

【6】 Research  Learning Deep Architectures for AI             

【7】ImageNet Classification with Deep Convolutional Neural Networks

【8】Going Deeper with Convolutions

【9】 Very Deep Convolutional Networks for Large - scale Image Recognition

【10】Deep Residual Learning for Image Recognition

【11】Fully Convolutional Networks for Semantic Segmentation  

引自:基於深度卷積神經網路的隧道襯砌裂縫識別演算法_柴雪松