Stanford CS231n Lecture 1 計算機視覺歷史回顧與課程大綱
本系列文章是斯坦福CS231n: Convolutional Neural Networks for Visual Recognition (winter 1516) 的聽課筆記與課下補充資料。
計算機視覺歷史回顧
這是一個視覺時代,目前(2016)有85%的網路資訊是畫素形式,它們難以被利用,李飛飛將它們稱為“網路中的暗物質”。CS231n聚焦於神經網路這一模型和計算機視覺這一應用。
視覺大約在5.4億年前出現,有人認為,視覺的出現導致並驅動了生物大爆發。
16世紀,達芬奇發明了照相暗盒,開始複製人們看到的資訊。
1959年,Huber&Wiesel研究生物的大腦是如何處理視覺資訊的。他們發現,大腦從簡單的形狀(例如,邊緣)開始處理視覺資訊。在視覺處理的第一步,基礎視覺區的神經元按一列一列組織起來,每一列神經元只“喜歡”某一種特定的形狀。
1963年,Larry Roberts認為是邊緣決定了物體外形,他的博士論文Block World是現代CV先驅。
1966年,MIT的人工智慧實驗室成立,標誌著CV的誕生。
20世紀70年代,David Marr提出了一個重要思想,“視覺是分層的”。這一思想被Deep Learning/CNN汲取。
20世紀90年代,進入彩色時代,問題轉向“感知分組”(人看到世界時會在腦中自動分割出各物體,而不是覺得只是一堆畫素),這一問題現在仍未徹底解決。
進入21世紀,問題焦點從3D建模變遷到識別問題。出現了第一個商用的CV演算法(實時人臉檢測),它的特徵學習過程有很強的深度學習特質。此後又出現了SIFT, Deformable Part Model等。後來又出現了ImageNet和神經網路的復興。
CS231n 課程大綱
CS321n聚焦於視覺識別中的一個重要問題,影象分類。視覺識別中有很多問題與影象分類相關,比如物體檢測、影象說明。
CNN是物體識別的重要工具。2012年之前的ILSVRC冠軍模型採用的是“特徵+SVM”,沒有端到端學習的風格特色。2012年,Hinton和他的學生引領了神經網路的復興。到2015年的MSRA,採用的仍是CNN。
AlexNet的成功離不開大量資料和高效能GPU,AlexNet只在1998年LeNet上做了很少改動。
視覺識別遠不止物體識別,還包括很多內容,比如對全場景中的物體都打上標籤、深入理解一幅影象……