opencv 車牌識別開源_純手工打造車載車牌識別檢測系統，現已開源！

阿新 • • 發佈：2020-12-17

點選上方“CVer”，選擇加"星標"或“置頂”

重磅乾貨，第一時間送達

本文轉載自：機器之心 |參與：王子嘉、思、一鳴 作者：Robert Lucian Chiriac

閒來無事，我們給愛車裝了樹莓派，配了攝像頭、設計了客戶端，搞定了實時車牌檢測與識別系統。

怎樣在不換車的前提下打造一個智慧車系統呢？一段時間以來，本文作者 Robert Lucian Chiriac 一直在思考讓車擁有探測和識別物體的能力。這個想法非常有意思，因為我們已經見識過特斯拉的能力，雖然沒法馬上買一輛特斯拉(不得不提一下，Model 3 現在看起來越來越有吸引力了)，但他有了一個主意，可以努力實現這一夢想。

所以，作者用樹莓派做到了，它放到車上可以實時檢測車牌。

‍ 在接下來的內容裡，我們將介紹專案中的每個步驟，並提供 GitHub 專案地址，其中專案地址只是客戶端工具，還其它資料集與預訓練模型都可以在原部落格結尾處找到。專案地址： https://github.com/RobertLucian/cortex-license-plate-reader-client 下面，讓我們看看作者 Robert Lucian Chiriac 是如何一步步打造一個好用的車載檢測識別系統。

放一張成品圖鎮樓。 第一步： 確定專案範圍 開始之前，我腦海裡出現的第一個問題是這樣一個系統應該能夠做到什麼。如果說我活到現在學到了什麼，那就是循序漸進——從小處著手永遠是最好的策略。所以，除了基本的視覺任務，我需要的只是在開車時能清楚地識別車牌。這個識別過程包括兩個步驟:

檢測到車牌。
識別每個車牌邊界框內的文字。

我覺得如果我能完成這些任務，再做其他類似的任務(如確定碰撞風險、距離等)就會容易得多。我甚至可能可以建立一個向量空間來表示周圍的環境——想想都覺得酷。在確定這些細節之前，我知道我得先做到：

一個機器學習模型，以未標記的影象作為輸入，從而檢測到車牌；
某種硬體。簡單地說，我需要連線了一個或多個攝像頭的計算機系統來呼叫我的模型。

那就先從第一件事開始吧——構建物件檢測模型。 第二步： 選擇正確的模型 經過仔細研究，我決定用這些機器學習模型：

YOLOv3- 這是當下最快的模型之一，而且跟其他 SOTA 模型的 mAP 相當。我們用這個模型來檢測物體；
CRAFT 文字檢測器 - 我們用它來檢測影象中的文字；
CRNN - 簡單來說，它就是一個迴圈卷積神經網路模型。為了將檢測到的字元按照正確的順序排成單詞，它必須是時序資料；

這三個模型是怎麼通力合作的呢？下面說的就是操作流程了：

首先，YOLOv3 模型從攝像機處接收到一幀幀影象，然後在每個幀中找到車牌的邊界框。這裡不建議使用非常精確的預測邊界框——邊界框比實際檢測物件大一些會更好。如果太擠，可能會影響到後續程序的效能；
文字檢測器接收 YOLOv3 裁剪過的車牌。這時，如果邊界框太小，那麼很有可能車牌文字的一部分也被裁掉了，這樣預測結果會慘不忍睹。但是當邊界框變大時，我們可以讓 CRAFT 模型檢測字母的位置，這樣每個字母的位置就可以非常精確；
最後，我們可以將每個單詞的邊界框從 CRAFT 傳遞到 CRNN 模型，以預測處實際單詞。

有了我的基本模型架構草圖，我可以開始轉戰硬體了。 第三步：設計硬體 當我發現我需要的是一種低功耗的硬體時，我想起了我的舊愛：樹莓派。因為它有專屬相機 Pi Camera，也有足夠的計算能力在不錯的幀率下預處理各個幀。Pi Camera 是樹莓派(Raspberry Pi)的實體攝像機，而且有其成熟完整的庫。為了接入網際網路，我可以通過 EC25-E 的 4G 接入，我以前的一個專案裡也用過它的一個 GPS 模組，詳情可見：部落格地址：https://www.robertlucian.com/2018/08/29/mobile-network-access-rpi/ 然後我要開始設計外殼了——把它掛在汽車的後視鏡上應該沒問題，所以我最終設計了一個分為兩部分的支撐結構:

在後視鏡的方向上，樹莓派+ GPS 模組+ 4G 模組將保留下來。關於我使用的 GPS 和 4G 天線，你可以去看一下我關於 EC25-E 模組的文章；
在另一側，我用一個利用球關節活動的手臂來支撐 Pi Camera

我會用我可靠的 Prusa i3 MK3S 3D 印表機來列印這些零件，在原文文末也提供了 3D 列印引數。

圖 1 ：樹莓派+4G/GPS 殼的外形

圖 2： 利用球關節活動臂支撐 Pi Camera 圖 1 和圖 2 就是它們渲染時候的樣子。注意這裡的 c 型支架是可插拔的，所以樹莓派的附件和 Pi Camera 的支撐物沒有和支架一起打印出來。他們共享一個插座，插座上插著支架。如果某位讀者想要復現這個專案，這是非常有用的。他們只需要調整後視鏡上的支架就可以了。目前，這個底座在我的車(路虎 Freelander)上工作得很好。

圖 3： Pi Camera 支撐結構的側檢視

圖 4： Pi Camera 支撐結構和 RPi 底座的正檢視

圖 5： 預計的相機視野

圖 6： 內建 4G/GPS 模組、Pi Camera，樹莓派的嵌入式系統近照 顯然，這些東西需要一些時間來建模，我需要做幾次才能得到堅固的結構。我使用的 PETG 材料每層高度為 200 微米。PETG 在 80-90 攝氏度下可以很好地工作，並且對紫外線輻射的抵抗力很強——雖然沒有 ASA 好，但是也很強。這是在 SolidWorks 中設計的，所以我所有的 SLDPRT/SLDASM 檔案以及所有的 STLs 和 gcode 都可以在原文末找到。你也可以用這些東西來列印你自己的版本。 第四步： 訓練模型 既然硬體解決了，就該開始訓練模型了。大家應該都知道，儘可能站在巨人的肩膀上工作。這就是遷移學習的核心內容了——先用非常大的資料集來學習，然後再利用這裡面學到的知識。 YOLOv3 我在網上找了很多預先訓練過的車牌模型，並沒有我最初預期的那麼多，但我找到了一個在 3600 張車牌圖上訓練過的。這個訓練集並不大，但也比什麼都沒有強。除此之外，它也是在 Darknet 的預訓練模型的基礎上進行訓練的，所以我可以直接用。模型地址：https://github.com/ThorPham/License-plate-detection 因為我已經有了一個可以記錄的硬體系統，所以我決定用我的系統在鎮上轉上幾個小時，收集新的視訊幀資料來對前面的模型進行微調。我使用 VOTT 來對那些含有車牌的幀進行標註，最終建立了一個包含 534 張影象的小資料集，這些影象中的車牌都有標記好的邊界框。資料集地址：https://github.com/RobertLucian/license-plate-dataset 然後我又找到利用 Keras 實現 YOLOv3 網路的程式碼，並用它來訓練我的資料集，然後將我的模型提交到這個 repo，這樣別人也能用它。我最終在測試集上得到的 mAP 是 90%，考慮到我的資料集非常小，這個結果已經很好了。

Keras 實現：https://github.com/experiencor/keras-yolo3
提交合並請求：https://github.com/experiencor/keras-yolo3/pull/244

CRAFT & CRNN 為了找到一個合適的網路來識別文字，我經過了無數次的嘗試。最後我偶然發現了 keras-ocr，它打包了 CRAFT 和 CRNN，非常靈活，而且有預訓練過的模型，這太棒了。我決定不對模型進行微調，讓它們保持原樣。 keras-ocr 地址：https://github.com/faustomorales/keras-ocr 最重要的是，用 keras-ocr 預測文字非常簡單。基本上就是幾行程式碼。你可以去該專案主頁看看這是如何做到的。 第五步： 部署我的車牌檢測模型 模型部署主要有兩種方法:

在本地進行所有的推理；
在雲中進行推理。

這兩種方法都有其挑戰。第一個意味著有一箇中心「大腦」計算機系統，這很複雜，而且很貴。第二個面臨的則是延遲和基礎設施方面的挑戰，特別是使用 gpu 進行推理。在我的研究中，我偶然發現了一個名為 cortex 的開源專案。它是 AI 領域的新人，但作為 AI 開發工具的下一個發展方向，這無疑是有意義的。 cortex 專案地址：https://github.com/cortexlabs/cortex 基本上，cortex 是一個將機器學習模型部署為生產網路服務的平臺。這意味著我可以專注於我的應用程式，而把其餘的事情留給 cortex 去處理。它在 AWS 上完成所有準備工作，而我唯一需要做的就是使用模板模型來編寫預測器。更棒的是，我只需為每個模型編寫幾十行程式碼。如下是從 GitHub repo 獲取的 cortex 執行時的終端。如果這都稱不上優美簡潔，那我就不知道該用什麼詞來形容它了:

因為這個計算機視覺系統不是為了實現自動駕駛而設計的，所以延遲對我來說不那麼重要，我可以用 cortex 來解決這個問題。如果它是自動駕駛系統的一部分，那麼使用雲提供商提供的服務就不是一個好主意，至少現在不是。部署帶有 cortex 的 ML 模型只需:

定義 cortex.yaml 檔案，它是我們的 api 的配置檔案。每個 API 將處理一種型別的任務。我給 yolov3 的 API 分配的任務是檢測給定幀上的車牌邊界框，而 crnn API 則是在 CRAFT 文字檢測器和 crnn 的幫助下預測車牌號碼；
定義每個 API 的預測器。基本上你要做的就是在 cortex 中定義一個特定類的 predict 方法來接收一個有效負載(所有的 servy part 都已經被平臺解決了)，這個有效負載來可以來預測結果，然後返回預測結果。就這麼簡單!

這裡有一個經典 iris 資料集的預測器示例，但因為文章篇幅原因，具體細節在此就不做贅述了。專案連結裡可以找到 cortex 使用這兩個 api 的方法——這個專案的所有其他資源都在本文的最後。

#predictor.pyimportboto3
importpicklelabels=["setosa","versicolor","virginica"]
classPythonPredictor:
def__init__(self,config):
s3=boto3.client("s3")
s3.download_file(config["bucket"],config["key"],"model.pkl")
self.model=pickle.load(open("model.pkl","rb"))defpredict(self,payload):
measurements=[
payload["sepal_length"],
payload["sepal_width"],
payload["petal_length"],
payload["petal_width"],
]label_id=self.model.predict([measurements])[0]
returnlabels[label_id]

為了做預測，你只需要像下面這樣使用 curl 就行了：

curlhttp://***.amazonaws.com/iris-classifier\
-XPOST-H"Content-Type:application/json"\
-d'{"sepal_length":5.2,"sepal_width":3.6,"petal_length":1.4,"petal_width":0.3}'

然後你會收到類似setosa這樣的反饋，非常簡單！ 第六步： 開發客戶端 有了 cortex 來幫我進行部署之後，我就可以開始設計客戶端了——這算是比較棘手的部分。我想到了以下架構:

從 Pi Camera 以可接受的解析度(800x450 或 480x270)收集幀速率為 30 FPS 的幀，並將每個幀推入一個公共佇列；
在一個單獨的程序中，我將從佇列中取出幀，並將它們分發給不同執行緒上的多個工作站；
每個工作執行緒(或者我稱之為推斷執行緒)都會向我的 cortex API 發出 API 請求。首先，一個請求到我的 yolov3API，然後，如果有任何車牌檢測到，另一個請求會帶著一批裁剪的車牌發到我的 crnn API。預測的車牌號碼將以文字格式返回；
將每個檢測到的牌照(帶不帶識別後的文字都可以)推到另一個佇列，最終將其廣播到瀏覽器頁面。同時，還將車牌號碼預測推到另一個佇列，以便稍後將其以 csv 格式儲存到磁碟；
廣播佇列將接收一組無序的幀。consumer 的任務是先把它們放在一個非常小的緩衝區(幾個幀的大小)，每次廣播一個新的幀給 client 重新排序。這個 consumer 在另一個程序上單獨執行，它還必須嘗試保持佇列的大小固定為指定值，以便以一致的幀速率顯示幀。顯然，如果佇列大小下降，那麼幀率的下降是成比例的，反之亦然；
與此同時，在主程序中還會執行另一個執行緒，從另一個佇列獲取預測和 GPS 資料。當客戶端收到終止訊號時，預測、GPS 資料和時間也會被轉存到 csv 檔案中。

下圖是客戶端與 AWS 上的雲 api 之間的關係流程圖。

圖 7： 基於 cortex 提供的雲 api 與客戶端流程圖 在我們的例子中，客戶端是樹莓派，推理請求傳送到的雲 api 由 AWS 上的 cortex 提供。客戶端的原始碼也可以在其 GitHub 中找到：https://github.com/robertlucian/cortex-licens-plate-reader-client 我必須克服的一個挑戰是 4G 的頻寬。最好減少此應用程式所需的頻寬，以減少可能的 hangups 或對可用資料的過度使用。我決定讓 Pi Camera 使用一個非常低的解析度：480x270(我們這裡可以用一個小解析度，因為 Pi Camera 的視野非常窄，所以我們仍然可以很容易地識別車牌)。不過，即使是在這個解析度下，每一幀的 JPEG 大小也是大約 100KB(0.8MBits)。乘以每秒 30 幀就得到 3000KB，也就是 24mb /s，這還是在沒有 HTTP 開銷的情況下，這是很多的。因此，我用了一些小技巧:

將寬度減少到 416 畫素，也就是 YOLOv3 模型所需要的大小，而且尺度顯然是完好無損的；
將影象轉換為灰度圖；
移除圖片頂部 45% 的部分。這裡的想法是車牌不會出現在車架的頂部，因為汽車不會飛，對吧？據我所知，刪除 45% 的影象並不影響預測器的效能；
再次轉換影象為 JPEG，但此時的質量變低了很多。

最終得到的幀的大小大約是 7-10KB，這是非常好的。這相當於 2.8Mb/s。但是考慮到響應等所有的開銷，它大約是 3.5Mb/s。對於 crnn API，裁剪過的車牌根本不需要太多空間，即使沒有進行壓縮，它們的大小也就是 2-3KB 左右一個。總而言之，要以 30FPS 的速度執行，推理 api 所需的頻寬大約是 6Mb/s，這個數字我可以接受。結果成功了！上面這個是通過 cortex 進行實時推理的例子。我需要大約 20 個裝備了 gpu 的例項才能順暢地執行它。根據這一組 gpu 的延遲，你可能需要更多的 gpu 或是更少的例項。從捕獲幀到向瀏覽器視窗廣播幀之間的平均延遲約為 0.9 秒，考慮到推斷髮生在很遠的地方，這真是太神奇了——到現在我還是覺得驚訝。文字識別部分可能不是最好的，但它至少證明了一點——它可以通過增加視訊的解析度或通過減少攝像機的視場或通過微調來更精確。至於 GPU 需求數太高的問題，這可以通過優化來解決。例如，在模型中使用混合精度/全半精度 (FP16/BFP16)。一般來說，讓模型使用混合精度對精度的影響很小，所以我們並沒有做太多的權衡。總而言之，如果所有的優化都到位，那麼將 gpu 的數量從 20 個減少到一個實際上是可行的。如果進行了適當的優化，甚至一個 gpu 的資源都用不完。 原文地址： https://towardsdatascience.com/i-built-a-diy-license-plate-reader-with-a-raspberry-pi-and-machine-learning-7e428d3c7401

推薦閱讀

2020年AI演算法崗求職群來了(含準備攻略、面試經驗、內推和學習資料等)

重磅！CVer-學術微信交流群已成立

掃碼新增CVer助手，可申請加入CVer大群和細分方向技術群，細分方向已涵蓋：目標檢測、影象分割、目標跟蹤、人臉檢測&識別、OCR、姿態估計、超解析度、SLAM、醫療影像、Re-ID、GAN、NAS、深度估計、自動駕駛、強化學習、車道線檢測、模型剪枝&壓縮、去噪、去霧、去雨、風格遷移、遙感影象、行為識別、視訊理解、影象融合、影象檢索、論文投稿&交流等群。

一定要備註：研究方向+地點+學校/公司+暱稱(如目標檢測+上海+上交+卡卡)，根據格式備註，可更快被通過且邀請進群

▲長按加群

▲長按關注我們

麻煩給我一個在看！

opencv 車牌識別開源_純手工打造車載車牌識別檢測系統，現已開源！

opencv 車牌識別開源_純手工打造車載車牌識別檢測系統，現已開源！

(紀錄)[ASP.NET MVC][jQuery]-1 純手工打造屬於自己的 jQuery GridView

開源安全軟體搭建資訊保安體系☞入侵檢測系統HIDS

國家能源集團聯合動力釋出“風鴻”集控系統，基於開源鴻蒙 OpenHarmony 工業發行版

華為“互動式活體檢測”眾測版 1.0 釋出：打造支付級活體檢測能力，僅 8.9MB 大小

馬斯克：未來將嘗試打造超級高鐵運輸系統，時速是飛機的 2 倍

python opencv將表格圖片按照表格框線分割和識別

網頁如何實現拼圖滑塊的驗證碼_純js的實現

linux 手工打造指令碼（處理EXCEL報表問題）優化（大資料版）

純手工十字繡——中國古典美

spring cloud alibaba微服務原理與實戰_完美整合Spring Cloud與異構微服務的框架！Spring Cloud Wii開源啦！...

tensorflow whl下載_使用Tensorflow實現聲紋識別

opencv python imshow報警_構建OpenCV和Raspberry Pi物體視覺追蹤

opencv 多執行緒加速_執行緒池給你寫好了，想加速拿來用就行哈

如何將開源容器應用快速打造為雲開發應用

表單驗證_純CSS實現表單驗證

01-純css打造雲端仙境

用matlab程式設計的人臉識別程式碼_人臉識別就這麼簡單嗎？16歲高中用Python20行程式碼就能寫出...

E3：定格動畫冒險遊戲《Harold Halibut》實機演示手工打造人物場景

UP 主耗時半年純手工製作 CPU，採用完全自主開發的指令集和架構

opencv 車牌識別 開源_純手工打造車載車牌識別檢測系統，現已開源！

相關推薦

opencv 車牌識別開源_純手工打造車載車牌識別檢測系統，現已開源！