caffe loss以及正則項反向傳播過程

阿新 • • 發佈：2019-01-17

概述

以前一直以為反向傳播的過程是這樣的，由Softmax計算得出分類loss，然後在加上L2正則項得出總的total_loss，然後再利用total_loss進行反向梯度的計算，而正則項會在每層的Forward函式中計算並返回，表面上感覺很對，但是實際分析就會發現這樣想法不合理的地方，

對正則項的計算，不同的solver是不一樣的，而且正則項的方法也是有L2和L1, 每層layer的Forward函式在不知道正則方法和solver型別的情況下是不可能計算出正則結果的。
對於用total_loss進行反向梯度傳播，我們知道total_loss在每一層只和該層的權值有關係，而total_loss

中包含著所有權值的正則化結果，這時候，如果我想把反向誤差傳播轉化為矩陣運算，顯然不行。

caffe中處理方法

首先需要宣告的是，每一個layer的Forward函式的確有返回loss，但是這個loss函式不是表示正則項的結果，而是應付可能出現的如下情況：就是有些網路並不是在最後才進行Softmax的分類計算，有時候會在網路的中間插入Softmax分類，例如googLeNet。
所以在caffe中，loss和正則項的計算過程是下面的敘述這樣的

計算Softmax分類loss

Softmax分類loss是在Network的最後一層SoftmaxWithLossLayer計算的，這裡需要交代的是，當引數iter_size

大於1的時候，比如為4，那麼一次迭代會有4次Forward和Backward的過程，這時候loss會進行4次累加，最後做個平均；更重要的是每次方向傳播的過程中，對於引數的梯度也會進行累加，包括權值和偏置，最後也會對梯度做個平均，這在下面有介紹。主要程式碼如下：
solver.cpp line221

for(int i = 0; i < param_.iter_size(); ++i){
  loss += net_->ForwardBackward();
}
loss /= param_.iter_size();
...
ApplyUpdate();

往引數梯度中加入正則項

如一開始所說，正則項不能在最後加入，而是在每一層計算梯度完成之後，再對梯度進行微調。在加入正則項之前，如果iter_size大於0，要對梯度進行平均，然後才進行正則化，正則化之後才根據lr_rate計算最終要更新的值，這些操作，毫無疑問都是在sgd有關函式sgd_solver.cpp裡完成的。主要程式碼如下：
sgd_solver.cpp: 109

for (int param_id = 0; param_id < this->net_->learnable_params().size(); ++param_id) {
  Normalize(param_id) // 對梯度去均值
  Regularize(param_id) // 在梯度中加入正則項
  ComputeUpdateValue(param_id, rate);
}
this->net_->Update();

正則項的計算也是非常簡單，利用L2優化項對對應權值的導數公式，直接利用矩陣乘法計算，

dL2dw=αw
caffe中程式碼如下：

Dtype weight_decay = this->param_.weight_decay();
string regularization_type = this->param_.regularization_type();
Dtype local_decay = weight_decay * net_params_weight_decay[param_id];
if (local_decay) {
  if(regularization_type == "L2") {
    caffe_axpy(net_params[param_id]->count(),
      local_decay,
      net_params[param_id]->cpu_data(),
      net_params[param_id]->mutable_cpu_diff());
  }
}

這裡順便提一下，ComputeUpdateValue函式是基於Momentum演算法計算更新量的。這個在以後會進行總結。

caffe loss以及正則項反向傳播過程

概述

caffe中處理方法

計算Softmax分類loss

往引數梯度中加入正則項

caffe loss以及正則項反向傳播過程

caffe中如何列印/輸出總loss，包括loss和正則項（待完成）

機器學習中目標函式、損失函式以及正則項的通俗解釋

概率統計與機器學習：極大後驗概率以及正則化項

Python基礎(遞歸、模塊、包以及正則)-day05

jQuery擴展插件以及正則相關函數練習

caffe源碼池化層反向傳播

通過給目標函數增加一個正則項來防止其過擬合

常用模塊之re模塊以及正則表達式擴展

根據正則表示式反向生成對應的字串現有工具(包)總結

深入理解線性迴歸演算法（二）：正則項的詳細分析

機器學習演算法中如何選取超引數學習速率正則項係數 minibatch size

淺議過擬合現象(overfitting)以及正則化技術原理

Python re 模組以及正則表示式

2、邏輯迴歸（正則項約束數學本質）

異常爬蟲demo、 find函式和findAll函式以及正則表示式查詢元素

機器學習筆記之五——目標函式、經驗風險與結構風險、正則項

python處理異常、日誌以及正則表示式

文字搜尋必學命令-grep egrep fgrep用法以及正則表示式

L1、L2 正則項詳解 - 解空間、先驗分佈、最大似然估計 and 最大後驗估計

caffe loss以及正則項反向傳播過程

概述

caffe中處理方法

計算Softmax分類loss

往引數梯度中加入正則項

相關推薦