yolo的引數解讀

阿新 • • 發佈：2018-12-10

一、網路結構圖：
layer     filters    size              input                output
    0 conv     32  3 x 3 / 1   416 x 416 x   3   ->   416 x 416 x  32
    1 max          2 x 2 / 2   416 x 416 x  32   ->   208 x 208 x  32
    2 conv     64  3 x 3 / 1   208 x 208 x  32   ->   208 x 208 x  64
    3 max          2 x 2 / 2   208 x 208 x  64   ->   104 x 104 x  64
    4 conv    128  3 x 3 / 1   104 x 104 x  64   ->   104 x 104 x 128
    5 conv     64  1 x 1 / 1   104 x 104 x 128   ->   104 x 104 x  64
    6 conv    128  3 x 3 / 1   104 x 104 x  64   ->   104 x 104 x 128
    7 max          2 x 2 / 2   104 x 104 x 128   ->    52 x  52 x 128
    8 conv    256  3 x 3 / 1    52 x  52 x 128   ->    52 x  52 x 256
    9 conv    128  1 x 1 / 1    52 x  52 x 256   ->    52 x  52 x 128
   10 conv    256  3 x 3 / 1    52 x  52 x 128   ->    52 x  52 x 256
   11 max          2 x 2 / 2    52 x  52 x 256   ->    26 x  26 x 256
   12 conv    512  3 x 3 / 1    26 x  26 x 256   ->    26 x  26 x 512
   13 conv    256  1 x 1 / 1    26 x  26 x 512   ->    26 x  26 x 256
   14 conv    512  3 x 3 / 1    26 x  26 x 256   ->    26 x  26 x 512
   15 conv    256  1 x 1 / 1    26 x  26 x 512   ->    26 x  26 x 256
   16 conv    512  3 x 3 / 1    26 x  26 x 256   ->    26 x  26 x 512
   17 max          2 x 2 / 2    26 x  26 x 512   ->    13 x  13 x 512
   18 conv   1024  3 x 3 / 1    13 x  13 x 512   ->    13 x  13 x1024
   19 conv    512  1 x 1 / 1    13 x  13 x1024   ->    13 x  13 x 512
   20 conv   1024  3 x 3 / 1    13 x  13 x 512   ->    13 x  13 x1024
   21 conv    512  1 x 1 / 1    13 x  13 x1024   ->    13 x  13 x 512
   22 conv   1024  3 x 3 / 1    13 x  13 x 512   ->    13 x  13 x1024
   23 conv   1024  3 x 3 / 1    13 x  13 x1024   ->    13 x  13 x1024
   24 conv   1024  3 x 3 / 1    13 x  13 x1024   ->    13 x  13 x1024
   25 route  16
   26 reorg              / 2    26 x  26 x 512   ->    13 x  13 x2048
   27 route  26 24
   28 conv   1024  3 x 3 / 1    13 x  13 x3072   ->    13 x  13 x1024
   29 conv    125  1 x 1 / 1    13 x  13 x1024   ->    13 x  13 x 125
   30 detection

二、配置引數的解讀：
[net]
batch=64                           每batch個樣本更新一次引數。
subdivisions=8                     如果記憶體不夠大，將batch分割為subdivisions個子batch，每個子batch的大小為batch/subdivisions。
                                   在darknet程式碼中，會將batch/subdivisions命名為batch。
height=416                         input影象的高
width=416                          Input影象的寬
channels=3                         Input影象的通道數
momentum=0.9                       動量
decay=0.0005                       權重衰減正則項，防止過擬合
angle=0                            通過旋轉角度來生成更多訓練樣本
saturation = 1.5                   通過調整飽和度來生成更多訓練樣本
exposure = 1.5                     通過調整曝光量來生成更多訓練樣本
hue=.1                             通過調整色調來生成更多訓練樣本

learning_rate=0.0001               初始學習率
max_batches = 45000                訓練達到max_batches後停止學習
policy=steps                       調整學習率的policy，有如下policy：CONSTANT, STEP, EXP, POLY, STEPS, SIG, RANDOM
steps=100,25000,35000              根據batch_num調整學習率
scales=10,.1,.1                    學習率變化的比例，累計相乘

[convolutional]
batch_normalize=1                  是否做BN
filters=32                         輸出多少個特徵圖
size=3                             卷積核的尺寸
stride=1                           做卷積運算的步長
pad=1                              如果pad為0,padding由 padding引數指定。如果pad為1，padding大小為size/2
activation=leaky                   啟用函式：
                                   logistic，loggy，relu，elu，relie，plse，hardtan，lhtan，linear，ramp，leaky，tanh，stair

[maxpool]
size=2                             池化層尺寸
stride=2                           池化步進

[convolutional]
batch_normalize=1
filters=64
size=3
stride=1
pad=1
activation=leaky

[maxpool]
size=2
stride=2

......
......


#######

[convolutional]
batch_normalize=1
size=3
stride=1
pad=1
filters=1024
activation=leaky

[convolutional]
batch_normalize=1
size=3
stride=1
pad=1
filters=1024
activation=leaky

[route]                            拼接層，將兩個層的資料進行合併
layers=-9

[reorg]                            the reorg layer is to make these features match the feature map size at the later layer.
                                   The end feature map is 13x13, the feature map from earlier is 26x26x512.
                                   The reorg layer maps the 26x26x512 feature map onto a 13x13x2048 feature map
                                   so that it can be concatenated with the feature maps at 13x13 resolution.
stride=2

[route]                            拼接層，將前一層和前三層拼接起來
layers=-1,-3

[convolutional]
batch_normalize=1
size=3
stride=1
pad=1
filters=1024
activation=leaky

[convolutional]
size=1
stride=1
pad=1
filters=125                        region前最後一個卷積層的filters數是特定的，計算公式為filter=num*(classes+5)
                                   5的意義是5個座標，論文中的tx,ty,tw,th,to
activation=linear

[region]
anchors = 1.08,1.19,  3.42,4.41,  6.63,11.38,  9.42,5.11,  16.62,10.52          預選框，可以手工挑選，
                                                                                也可以通過k means 從訓練樣本中學出
bias_match=1
classes=20                         網路需要識別的物體種類數
coords=4                           每個box的4個座標tx,ty,tw,th
num=5                              每個grid cell預測幾個box
softmax=1                          使用softmax做啟用函式
jitter=.2                          通過抖動增加噪聲來抑制過擬合
rescore=1                          暫理解為一個開關，非0時通過重打分來調整l.delta（預測值與真實值的差）

object_scale=5                     暫理解為計算損失時預測框中有物體時的權重
noobject_scale=1                   暫理解為計算損失時預測框中無物體時的權重
class_scale=1                      暫理解為計算類別損失時的權重
coord_scale=1                      暫理解為計算損失時座標偏差的權重

absolute=1
thresh = .6
random=0                           是否隨機確定最後一個預測框

yolo的引數解讀

一、網路結構圖： layer filters size input output 0 conv 32 3 x 3 / 1 416 x 416 x 3 -> 416 x

kaldi中文語音識別thchs30模型訓練程式碼功能和配置引數解讀

Monophone 單音素模型的訓練 # Flat start and monophone training, with delta-delta features. # This script applies ceps

explain sql 結果引數解讀

● explain結果： mysql> explain select * from emp; +----+-------------+-------+------------+------+---------------+------+---------+------+------

3.3 HDFS引數解讀

第3章 HDFS：分散式檔案系統 3.3 HDFS引數解讀 3.3.1 官方文件 Hadoop官方文件地址： http://hadoop.apache.org/docs/r2.7.3/ 由於Hadoop

WebRTC內建debug工具，詳細引數解讀 chrome://webrtc-internals/

為了確保這篇文章所寫內容儘可能的準確，我決定請來Philipp Hancke來作為此篇文章的共同作者。當你想要找到你WebRTC產品中的問題時，webrtc-internals是一個非常棒的工具，因為你需要用它測試WebRTC以及debug，或者你需要對你的配置進行微調。

YOLO演算法解讀

本文以從頭實現YOLO的角度出發，解釋了YOLO目標檢測框架。本文不會描述網路的優點/缺點或每個設計選擇的原因，而是關注於它是如何工作的。在閱讀本文之前，假設讀者對神經網路，特別是CNN有一個基本的瞭解。 YOLO是什麼? YOLO (You Only Loo

Zookeeper安裝和引數解讀

安裝將/opt/module/zookeeper-3.4.10/conf這個路徑下的zoo_sample.cfg修改為zoo.cfg；進入zoo.cfg檔案：vim zoo.cfg 修改dataDir路徑為 dataDir=/opt/module/zooke

Mysql學習總結（64）——Mysql配置檔案my.cnf各項引數解讀

#以下選項會被MySQL客戶端應用讀取。注意只有MySQL附帶的客戶端應用程式保證可以讀取這段內容。如果你想你自己的MySQL應用程式獲取這些值。需要在MySQL客戶端庫初始化的時候指定這些選項。 [client] port = 3309 socket = /usr/loca

zookeeper配置引數解讀

解讀zoo.cfg 檔案中引數含義 1）tickTime：通訊心跳數，Zookeeper伺服器心跳時間，單位毫秒用於配置 ZooKeeper 中最小時間單位的長度，很多執行時的時間間隔都是使用 tickTime 的倍數來表示的。例如，ZooKeeper 中會話的最小超時時間預設是 2*ti

YOLO個人解讀和部分程式碼註釋

YOLOv1 YOLOv2 個人解讀和部分程式碼註釋前一段時間過年那陣子，做了一個小專案，用YOLO檢測車輛。於是把yolo的論文v1 v2刷了一遍，然後下了程式碼，跑了一遍。後期老師說讓我好好去讀讀原始碼，我花了幾天時間把基於darknet的程式碼

AD DA 引數解讀

dynamic range SNR = 6.02*N + 1.72 dB ENOB= (SNR(db)-1.72)/6.02. 1.PSRR：電源抑制比，對於高質量的DA轉換器，要求開關電路及運算放大器所用的電源電壓變化時，對輸出電壓影響極小。所以此引數在DA

TensorFlow中flags傳遞引數解讀tf.app.flags

tf.app.flags用於傳遞tf.app.run( )所需的引數, 可檢視原始碼flags.py ，亦可理解為處理命令列引數的解析工作。檢視flags.py，返回的即是FLAGS。So若呼叫其中的參量，形式為flags.FLAGS.XXX 一般用到 tf.ap

神經網路中的引數解讀

1.Batch_Size(批尺寸) 該引數主要用於批梯度下降演算法(Batch Gradient Descent)中，批梯度下降演算法是每次迭代都遍歷批中的所有樣本，由批中的樣本共同決定最優的方向，Batch_Size 正是批中的樣本數量。若資料集比較小，

【YOLO】YOLO網路中引數的解讀

1.Batch_Size(批尺寸)該引數主要用於批梯度下降演算法(Batch Gradient Descent)中，批梯度下降演算法是每次迭代都遍歷批中的所有樣本，由批中的樣本共同決定最優的方向，Batch_Size 正是批中的樣本數量。若資料集比較小，可以採用全

yolo v2 損失函式原始碼解讀

前提說明： 1, 關於 yolo 和 yolo v2 的詳細解釋請移步至如下兩個連結，或者直接看論文（我自己有想寫 yolo 的教程，但思前想後下面兩個連結中的文章質量實在是太好了_(:з」∠)_） yo

Kaldi 對說話人識別GMM-UBM的MAP 引數更新和對數似然概率解讀

寫部落格=寫日記，為自己記錄工作進度和理論知識，如果有恰好路過的大牛經過，可以駐足看看我的理解本人剛接觸說話人識別不到一個月，因工作需求研究了kaldi。大致弄懂了GMM-UBM，正在研究Ivector的理論和實踐. 雖然個人更喜歡資料分析，資料探勘和傳統的機器學習。但能學到不同領域的AI知識

深度學習之---yolo,kmeans計算anchor框原始碼解讀

k-means原理 K-means演算法是很典型的基於距離的聚類演算法，採用距離作為相似性的評價指標，即認為兩個物件的距離越近，其相似度就越大。該演算法認為簇是由距離靠近的物件組成的，因此把得到緊湊且獨立的簇作為最終目標。問題 K-Means演算法主要解決的問題如下圖所示。我們可以看到

HttpClient4.3 連線池引數配置及原始碼解讀

目前所在公司使用HttpClient 4.3.3版本傳送Rest請求，呼叫介面。最近出現了呼叫查詢介面服務慢的生產問題，在排查整個呼叫鏈可能存在的問題時（從客戶端發起Http請求->ESB->服務端處理請求，查詢資料並返回），發現原本的HttpClient連線池中的一些引數配置可能存在問題，如de

機器學習備註：Yolo訓練時輸出引數的解釋

舉例比如某一次的輸出結果如下訓練log中各引數的意義 5: 10.222071, 10.294983 avg loss, 0.000000 rate, 395.829699 seconds, 320 images Loaded: 0.000000 seconds R

YOLO-v3模型引數anchor設定

1. 背景知識在YOLO-v2版本中就引入了anchor box的概念，極大增加了目標檢測的效能。但是在訓練自己資料的時候還是用模型中原有的anchor設定顯然是有點不合適的，那麼就涉及到根據自己的訓練資料來設定anchor。那麼，首先我們需要知道ancho

yolo的引數解讀

相關推薦