Caffe學習筆記10:solver.prototxt各引數設定

阿新 • • 發佈：2018-12-11

caffe solver.prototxt引數意義與設定

batchsize:每迭代一次，網路訓練圖片的數量，例如：如果你的batchsize=256，則你的網路每迭代一次，訓練256張圖片；則，如果你的總圖片張數為1280000張，則要想將你所有的圖片通過網路訓練一次，則需要1280000/256=5000次迭代。
epoch：表示將所有圖片在你的網路中訓練一次所需要的迭代次數，如上面的例子：5000次；我們稱之為一代。所以如果你想要你的網路訓練100代時，則你的總的迭代次數為max_iteration=5000*100=500000次；
max_iteration:網路的最大迭代次數如上面的500000次；同理，如果max_iteration=450000，則該網路被訓練450000/5000=90代。
test_iter：表示測試的次數；比如，你的test階段的batchsize=100，而你的測試資料為10000張圖片，則你的測試次數為10000/100=100次；即，你的test_iter=100;
test_interval:表示你的網路迭代多少次才進行一次測試，你可以設定為網路訓練完一代，就進行一次測試，比如前面的一代為5000次迭代時，你就可以設定test_interval=5000;
base_lr:表示基礎學習率，在引數梯度下降優化的過程中，學習率會有所調整，而調整的策略就可通過lr_policy這個引數進行設定，若lr_policy設定為step，若stepsize=5000, base_lr=0.01, gamma=0.1,則當迭代到第一個5000次時，lr第一次衰減，衰減後的lr=lrgamma=0.01

0.1=0.001,以後重複該過程，所以 stepsize是lr的衰減步長，gamma是lr的衰減係數；
stepsize不能太小，如果太小會導致學習率再後來越來越小，達不到充分收斂的效果stepsize不能太小，如果太小會導致學習率再後來越來越小，達不到充分收斂的效果
lr_policy：學習率的調整策略：

fixed:　　保持base_lr不變.
step: 　　如果設定為step,則還需要設定一個stepsize, 返回 base_lr * gamma ^ (floor(iter / stepsize)),其中iter 表示當前的迭代次數
exp: 　　返回base_lr * gamma ^ iter， iter為當前迭代次數

inv:　　如果設定為inv,還需要設定一個power, 返回base_lr * (1 + gamma * iter) ^ (- power)
multistep: 如果設定為multistep,則還需要設定一個stepvalue。這個引數和step很相似，step是均勻等間隔變化，而multistep則是根據stepvalue值變化
poly: 　　學習率進行多項式誤差, 返回 base_lr (1 - iter/max_iter) ^ (power)
sigmoid:　學習率進行sigmod衰減，返回 base_lr ( 1/(1 + exp(-gamma * (iter - stepsize))))

momentum：0.9，動量，不建議調整，表示上一次梯度更新的權重;
weight_decay：表示權重衰減，用於防止過擬合；
訓練樣本總共:121368個 batch_szie:256 將所有樣本處理完一次（稱為一代，即epoch)需要：121368/256=475 次迭代才能完成所以這裡將test_interval設定為475，即處理完一次所有的訓練資料後，才去進行測試。所以這個數要大於等於475. 如果想訓練100代，則最大迭代次數為47500；
測試樣本同理，如果有1000個測試樣本，batch_size為25，那麼需要40次才能完整的測試一次。所以test_iter為40；這個數要大於等於40.
學習率學習率變化規律我們設定為隨著迭代次數的增加，慢慢變低。總共迭代47500次，我們將變化5次，所以stepsize設定為47500/5=9500，即每迭代9500次，我們就降低一次學習率。
type 往往loss function 是非凸的，沒有解析解，我們需要通過優化方法來求解 caffe 提供了六種演算法來求解最優引數，在solver配置檔案中，通過設定type型別來選擇 Stochastic Gradient Descent（type：SGD） #隨機梯度下降 AdaDelta（type：AdaDelta） Adaptive Gradient（type： Adaptive） Adam（type：Adam） Nesterov’s Accelerated Gradient（type：Nesterov） RMSprop（type：RMSprop）
display: 100 ，每訓練100次，在螢幕上先是一次，如果設定為0，則不顯示；
snapshot: 1000 ，快照，將訓練出來的model和solver進行儲存，snapshot 用於設定訓練多少次後進行儲存；
snapshot_prefix: “examples/mnist/lenet” ：儲存路徑
solver_mode: GPU ，是否使用GPU

Caffe學習筆記10:solver.prototxt各引數設定

caffe solver.prototxt引數意義與設定 batchsize:每迭代一次，網路訓練圖片的數量，例如：如果你的batchsize=256，則你的網路每迭代一次，訓練256張圖片；則，如果你的總圖片張數為1280000張，則要想將你所有的圖片通過

Caffe學習筆記10：影象資料生成caffe需要的（laveldb和lmdb）資料檔案

在深度學習的實際應用中，我們經常用到的原始資料是圖片檔案，如jpg,jpeg,png,tif等格式的，而且有可能圖片的大小還不一致。而在caffe中經常使用的資料型別是lmdb或lev

Struts2 學習筆記 —— 10 —— Action接收引數時的中文亂碼問題

在Struts接收引數時，如果輸入中文，那麼可能就會出現亂碼問題首先寫一個index.jsp <%@ page language="java" contentType="text/html; charset=GB18030" pageEncoding=

吳恩達機器學習筆記 —— 10 神經網路引數的反向傳播演算法

本篇講述了神經網路的誤差反向傳播以及訓練一個神經網路模型的流程神經網路可以理解為兩個過程：訊號的正向傳播和誤差的反向傳播。在正向的傳播過程中，計算方法為Sj=wijxi+bj，其中i是樣本、j是層數。然後xj=f(Sj)，f為啟用函式。引入啟用函式的原因是可以

Caffe學習筆記（九）——python介面各網路層構建

構建網路一資料層 1 基本說明 layer { name: "cifar" //層的名字 type: "Data" //層型別 Data表示表示資料來源於LevelDB或LMDB top: "data" //輸出層 top: "label

caffe學習筆記：caffe網路模型檔案（.prototxt）layer與layers區別

編寫caffe網路模型檔案的時，有layer與layers兩種方式，其不同之處主要在於網路型別type的定義方式不同，例如定義type為hdf5資料型別時，其定義方式如下。1. 使用layerlayer { name: "data" type: "HDF5Data" t

SRS學習筆記10-SrsConnection及其子類分析

when red ins parse discovery bsp for port std SrsConnection類代表一個client的連接,其中封裝了st thread,用於在一個單獨的st thread裏處理一個client的服務請求. SrsConnection

Android:日常學習筆記(10)———使用LitePal操作數據庫

分享數據 turn find netstat price 彈出 category 模式 Android:日常學習筆記(10)———使用LitePal操作數據庫引入LitePal 什麽是LitePal 　　LitePal是一款開源的Android數據庫框架，采用了對象關系

mybatis學習筆記(10)-一對一查詢

creat art ota div system spl 指定 tor block mybatis學習筆記(10)-一對一查詢

MySQL學習筆記10復制錯誤處理(一)表已存在的問題

opp upd char execute set 現在 try state error: (1)錯誤情況在slave上已經有數據表test，而master上並沒有這張表，現在在master上新建test表，則slave上的復制過程會出錯。 MySQL的log記錄中相關信息

python+selenium個人學習筆記10-調用JavaScript和截圖

end post style keys driver quit fin send IT 調用JavaScript和截圖一、調用JavaScript 1、調整瀏覽器滾動條位置 window.scrollTo(0,500); #左邊距,上邊距 2、用ex

【python】學習筆記10-ddt數據驅動

get args code imp content coo 文檔 AR ems DDT的使用 DDT包含類的裝飾器ddt和兩個方法裝飾器data（直接輸入測試數據），file_data（可以從json或者yaml中獲取測試數據）只有yaml和yml結尾的文件以yaml形式

Linux學習筆記10——管道和重定義

管道重定義計算機的組成有：運算器，控制器，存儲器，輸入輸出設備。於是就有了地址總線，數據總線，控制總線。事實上在機器裏面總線是復用的，一個總線三種功能。地址總線：內存尋址數據總線：傳輸數據控制總結：控制指令寄存器：CPU暫時存儲器程序在運行時要從輸入設備獲取指令，通過輸出設備輸出作為人機交互。那麽系統在什

Python學習筆記10--unittest參數化

main 學習參數化 python 如果 a+b 參數怎麽辦用戶登陸我們在寫case的時候，如果用例的操作是一樣的，就是參數不同，比如說要測一個登陸的接口，要測正常登陸的、黑名單用戶登陸的、賬號密碼錯誤的等等，在unittest裏面就要寫多個case來測試。這樣的

Python+Selenium學習筆記10 - send_keys上傳文件

element pan web col 技術 html -h nbsp style 在火狐瀏覽器上傳文件上傳前，同一個HTML文件在火狐和Edge瀏覽器顯示有些不同這是Firefox瀏覽器的顯示這是Edge瀏覽器上傳後 1 # coding

匯編學習筆記(10)-IO端口與指令

其中浪費完成 oop 執行代碼研究可能控制寄存器一、什麽是IO端口　　計算機上有很多輸入輸出設備，比如顯示器，打印機，鼠標，鍵盤。這些設備通過接口和CPU相連接，並提供了一組寄存器給CPU用於控制對應的硬件，為了方便管理這些寄存器，CPU給這個寄存器統一分配

設計模式：學習筆記(10)——適配器模式

light .com rgs strong 接口可能兼容不能 pan 設計模式：學習筆記(10)——適配器模式引入適配器模式我們身邊的適配器適配器是什麽，你一定不難理解，因為現實中到處都是。比方說：如果你需要在歐洲國家使用美國制作的筆記本電腦，你可能需要一個交

Dubbo學習筆記10：Dubbo服務消費方啟動流程源碼分析

exec checked 自己當前 In rpc mod png collect 同理我們看下服務消費端啟動流程時序圖：在《Dubbo整體架構分析》一文中，我們提到服務消費方需要使用ReferenceConfig API來消費服務，具體是調用代碼（1）get()方法來

Kali學習筆記10：端口掃描詳解（下）

repl .com pan pytho format www. run 筆記 inf 上一篇先是介紹了UDP的端口掃描，又談了TCP的不完全連接端口掃描 https://www.cnblogs.com/xuyiqing/p/9389276.html 接下來我們看看TCP的全

【Python爬蟲學習筆記10】多線程中的生產者消費者模式

其中因此問題共享 and 生產者消費者模式共享問題由於接下來在多線程編程中，最經典的模式是生產者消費者模式。其中，生產者是專門用來生產數據的線程，它把數據存放在一個中間變量中；而消費者則從這個中間變量取出數據進行消費。由於生產者和消費者共享中間變量，這些變量大

Caffe學習筆記10:solver.prototxt各引數設定

caffe solver.prototxt引數意義與設定

相關推薦