1. 程式人生 > 實用技巧 >物件檢測和影象分割有什麼區別?

物件檢測和影象分割有什麼區別?

點選上方“小白學視覺”,選擇加"星標"或“置頂

重磅乾貨,第一時間送達

01.人工智慧中的影象預處理

物件檢測和影象分割是計算機視覺的兩種方法,這兩種處理手段在人工智慧領域內相當常見,本文將介紹物件檢測和影象分割之間的區別。

在這兩個任務中,我們都希望找到影象上某些特定專案的位置。例如,我們可能有一組安全攝像機圖片,並且在每張圖片上,我們要標識圖片中所有人員的位置。通常有兩種方法可用於此目的:物件檢測和影象分割。

02.物件檢測—預測邊界框

當我們談論物件檢測時,我們通常談論的是邊界框。這意味著我們的影象處理將在我們的圖片中識別每個人周圍的矩形。邊框通常由左上角的位置(2個座標)以及寬度和高度(以畫素數為單位)定義。

如何理解物體檢測方法?如果我們回到任務:識別圖片上的所有人,則可以理解通過邊界框進行物件檢測的邏輯。解決方案的第一個直覺可能是將影象切成小塊,然後在每個子影象上應用影象分類,以說明該影象是否是人類。對單個影象進行分類是一項較容易的任務,並且是物件檢測的一項,因此,他們採用了這種分步方法。

目前來講,YOLO模型(You Only Look Once)是解決這一問題的偉大發明。YOLO模型的開發人員已經構建了一個神經網路,該神經網路能夠立即執行整個邊界框方法!

當前用於物體檢測的最佳模型

• YOLO

• Faster RCNN

03.影象分割—預測蒙版

逐步掃描影象的邏輯替代方法是遠離繪圖框,而是逐畫素註釋影象。如果這樣做,我們將擁有一個更詳細的模型,該模型基本上是輸入影象的轉換。

如何理解影象分割方法?

這個想法是基本的:即使在掃描產品上的條形碼時,也可以應用一種演算法來轉換輸入(通過應用各種濾波器),從而使條形碼序列以外的所有資訊在最終圖片中變得不可見。

這是在影象上定位條形碼的基本方法,但與“影象分割”中發生的情況相當。

影象分割的返回格式稱為遮罩:與原始影象具有相同大小的影象,但是對於每個畫素,它僅具有一個布林值,指示物件是否存在。

如果我們允許多個類別,它可能會變得更加複雜:例如,它可以將海灘景觀分為三類:空氣,海洋和沙灘。

當前最佳的影象分割模型

• Mask RCNN

• Unet

• Segnet

04.總結

物體檢測

• 輸入是一個矩陣(輸入影象),每個畫素3個值(紅色,綠色和藍色),如果黑色和白色則每個畫素1個值

• 輸出是由左上角和大小定義的邊界框的列表

影象分割

• 輸入是一個矩陣(輸入影象),每個畫素3個值(紅色,綠色和藍色),如果黑色和白色則每個畫素1個值

• 輸出是一個矩陣(蒙版影象),每個畫素包含已分配類別的1個值

交流群

歡迎加入公眾號讀者群一起和同行交流,目前有SLAM、三維視覺、感測器、自動駕駛、計算攝影、檢測、分割、識別、醫學影像、GAN、演算法競賽等微信群(以後會逐漸細分),請掃描下面微訊號加群,備註:”暱稱+學校/公司+研究方向“,例如:”張三+上海交大+視覺SLAM“。請按照格式備註,否則不予通過。新增成功後會根據研究方向邀請進入相關微信群。請勿在群內傳送廣告,否則會請出群,謝謝理解~