關於computer view(CV)的幾點認識-數字影象處理
當今科技越來越追求智慧科技,CV大約從十年前就逐漸開始迅速發展,直至今日的火爆。就我本人的視角來看,CV從原始的基於數字影象處理漸漸發展為了採用機器學習、深度學習等綜合性的學科。下面逐步分析我對此的幾點認識。
我認為計算機視覺是從數字影象處理髮展來的,而數字影象處理的基礎又是數字訊號處理。翻看Gonzalez的Digital Image Processing,可以發現裡面許多章節是DSP的內容,如第四章-頻域濾波和第五章-影象復原與重建(DFT/FFT和fiber的知識)、第七章-小波和多解析度處理(小波變換的知識)、第八章-影象壓縮(壓縮編碼的知識)。這些對與我們來說基本都是“先驗知識”了,所以接受起來相對較快。
再簡單說一下其他章節。前兩章是介紹性內容略過。第三章-灰度變換與空間濾波,前半部分講如何將彩色圖變為灰度圖,即如何把一個三維的影象矩陣變為一個一維的影象矩陣,其element的範圍是(0-255)。(彩色影象一般採用24位實現法,即R/G/B分別取0-255)。後半部分主要是卷積,又是之前學過的內容了。
彩色影象在第六章-彩色影象處理中進一步進行了描述。詳細來說,除了最常用的RGB模型,還有CMY和CMYK模型、HSI模型。我認為這一章的內容只是把前面對於灰度圖處理的知識擴充套件到了彩色影象上面而已。
第九章-形態學影象處理,主要講了開閉運算、膨脹腐蝕。以我個人的語言來說,膨脹是將影象的一部分擴大變模糊,腐蝕是將影象的一部分縮小變清晰。(感覺是很字面的意思)。應用的話,比如我們要處理的影象中有一條線應該是連起來的,但是轉為灰度圖或者其他操作之後線斷了,我們就可以考慮通過膨脹將它重新連起來。再比如ORC字元識別中,有一些字很粗很不清晰,我們可以通過腐蝕操作將它縮瘦一點。
進一步的,開運算是先腐蝕後膨脹,作用是“平滑物體的輪廓、斷開較窄的狹頸並消除細的突出物”。閉運算是先膨脹後腐蝕,作用是“彌合較窄的間斷和細長 溝壑,消除小的孔洞,填補輪廓線中的斷裂”。
第十章-影象分割是講了邊緣檢測、角點檢測、霍夫變換和各種運算元。關於這部分內容我在之前整理過一個文件,回去找一下再傳上來。
而影象分割這部分就我而言是用模式識別、機器學習的方法較多。關於這部分內容會在下一篇中寫到。
第十一章-表示和描述中講了邊界追蹤、骨架提取等,還有各種邊界、區域描繪子。老實說我在這一章上的知識儲備很不成體系,因此不多講。裡面的內容只是用過骨架提取,也可以說是細化。這一方法可以應用在手寫字型識別和生成上(我便是在這一專案中用到了骨架提取的)。
Gonzalez在第十二章中提到了模式識別,有模板匹配、神經網路、分類器等方法。有關模式識別的內容在下一篇中會詳細說明。
PS:寫了這麼多真的有點累了,過程中很多地方需要重新翻書,也發現自己記憶中很多的錯誤。是一個很有意義的整理。
記錄於2017-07-25,11:08