第一次接觸 YOLO 這個目標檢測專案的時候,我就在想,怎麼樣能夠封裝一下讓普通人也能夠體驗深度學習最火的目標檢測專案,不需要關注技術細節,不需要裝很多軟體。只需要網頁就能體驗呢。





3.YOLO 一下


  1. web 用了 Django 來做介面,就是上傳檔案,儲存檔案這個功能。
  2. YOLO 的實現用的是 keras-yolo3,直接匯入yolo 官方的權重即可。
  3. YOLO 和 web 的互動最後使用的是 socket。


Django 中 Keras 初始化會有 bug,原計劃是直接在 Django 裡面用 keras,後來發現坑實在是太深了。

最後 Django 是負責拿檔案,然後用 socket 把檔名傳給 yolo。


說好的線上服務,為什麼沒有上線呢?買了騰訊雲 1 CPU 2 G 記憶體,部署的時候發現 keras 根本起不來,直接被 Killed 。



YOLO 的識別是需要一定的時間的,做成 web 的服務,上傳完檔案之後,並不能馬上識別出來,有一定的延遲。


谷歌釋出 Open Images V4資料集,190萬張圖片開啟公開影象挑戰賽

4 月 30 日,谷歌在其官方部落格上發文稱將開放 Images V4 資料庫,並同時開啟 ECCV 2018 公開影象挑戰賽。雷鋒網編譯全文如下:
2016 年,我們釋出了一個包含大約 900 萬張圖片、標註了數千個物件類別標籤的資料集 Open Images。釋出之後,我們一直在努力更新和改進資料集,以便為計算機視覺社群提供有用的資源來開發新模型。
今天,我們很高興地宣佈開放 Open Images V4,它包含在 190 萬張圖片上針對 600 個類別的 1540 萬個邊框盒,這也是現有最大的具有物件位置註釋的資料集。這些邊框盒大部分都是由專業註釋人員手動繪製的,確保了它們的準確性和一致性。另外,這些影象是非常多樣化的,並且通常包含有多個物件的複雜場景(平均每個影象 8 個)。

與此同時,我們還將宣佈啟動 Open Images 挑戰賽,這將是在 2018 計算機視覺歐洲會議(ECCV 2018)上舉辦的一場新的物件檢測挑戰賽。Open Images 挑戰賽將遵循 PASCAL VOC、ImageNet 和 COCO 等賽事的傳統,但是其規模將是空前的。

Open Images 挑戰賽在一下這幾個方面將是獨一無二的:

有 170 萬張訓練圖片,其中有 500 個類別和 1220 萬個邊框註釋;


除了主流的物體檢測外,本次挑戰賽中在檢測物體對時還將包括視覺關係檢測,例如「woman playing guitar」。

訓練資料集現在已經可以使用;一個包含有 10 萬張圖片的測試集將於 2018 年 7 月 1 日釋出在 Kaggle 上。挑戰賽提交結果的截止日期為 2018 年 9 月 1 日。

我們希望更大的訓練集能夠刺激對更復雜檢測模型的研究,這些模型將超過當前 state-of-the-art 的效能;而從另一方面,我們希望 500 個類別能夠更精確地評估不同探測器在哪些方面表現的更好。此外,擁有大量帶有多個物件標註的影象,可以幫組你探索視覺關係檢測,這還是一個熱門的新興話題,而且具有越來越多的子社群。

除了上述內容外,Open Images V4 還包含了 3010 萬張經過人工驗證的針對 19794 個類別影象級標籤的圖片。當然這些標籤不屬於挑戰賽的一部分,其中的 550 萬張影象級標籤是由來自世界各地成千上萬名使用者通過 crowdsource.google.com 生成的。


TensorFlow + Keras 實戰 YOLO v3 目標檢測圖文並茂教程

1.從 YOLO 官網下載 YOLOv3 權重

wget https://pjreddie.com/media/files/yolov3.weights


2.轉換 Darknet YOLO 模型為 Keras 模型

python convert.py yolov3.cfg yolov3.weights model_data/yolo.h5


3.執行YOLO 目標檢測

python yolo.py






Mask_RCNN:基於Keras and TensorFlow 的 Mask R-CNN 為 目標檢測和情景分割

Mask R-CNN for Object Detection and Segmentation

這是一個基於 Python 3, Keras, TensorFlow 實現的 Mask R-CNN。這個模型為影象中的每個物件例項生成邊界框和分割掩碼。它基於 Feature Pyramid Network (FPN) and a ResNet101 backbone.


在FPN和ResNet101上構建的Mask R-CNN的原始碼。

MS COCO的訓練程式碼

MS COCO 預先訓練的權重

Jupyter notebooks 來視覺化在每一個步驟的檢測管道




程式碼被記錄和設計為易於擴充套件。 如果您在研究中使用它,請考慮引用此專案。 如果您從事3D視覺工作,您可能會發現我們最近釋出的Matterport3D資料集也很有用。 這個資料集是由我們的客戶拍攝的三維重建空間建立的,這些客戶同意將這些資料公開供學術使用。 你可以在這裡看到更多的例子。

This is an implementation of Mask R-CNN on Python 3, Keras, and TensorFlow. The model generates bounding boxes and segmentation masks for each instance of an object in the image. It’s based on Feature Pyramid Network (FPN) and a ResNet101 backbone.

The repository includes:

  • Source code of Mask R-CNN built on FPN and ResNet101.
  • Training code for MS COCO
  • Pre-trained weights for MS COCO
  • Jupyter notebooks to visualize the detection pipeline at every step
  • ParallelModel class for multi-GPU training
  • Evaluation on MS COCO metrics (AP)
  • Example of training on your own dataset

The code is documented and designed to be easy to extend. If you use it in your research, please consider referencing this repository. If you work on 3D vision, you might find our recently released Matterport3D dataset useful as well. This dataset was created from 3D-reconstructed spaces captured by our customers who agreed to make them publicly available for academic use. You can see more examples here.



YOLO:3 步實時目標檢測安裝執行教程

封面圖是作者執行圖,我在 ubuntu 環境下只有文字預測結果。

Detection Using A Pre-Trained Model



git clone https://github.com/pjreddie/darknet
cd darknet


wget https://pjreddie.com/media/files/yolo.weights


./darknet detect cfg/yolo.cfg yolo.weights data/dog.jpg


