結合量化的知識蒸餾（Quantization Mimic）

阿新 • • 發佈：2019-01-30

"Quantization Mimic Towards Very Tiny CNN for Object Detection"這篇文章通過將知識蒸餾（Knowledge Distillation）與量化技術（Model Quantization）有效結合，能夠誘導訓練生成纖細、但效能良好的目標檢測網路（主幹網路通道數少、層數淺的R-FCN或Faster RCNN）。Quantization Mimic中量化技術能夠縮小引數搜尋空間，從而帶來正則化效應，有效降低過擬合；而知識蒸餾則負責將複雜教師網路的知識遷移至學生網路。

Quantization Mimic的整體框架如上圖所示，首先訓練一個性能優越的全精度教師網路（如R-FCN-VGG）；再將教師網路予以量化，獲得量化後的Feature Maps輸出；然後設計一個纖細的學生網路（如R-FCN-VGG-1-32），並予以量化；最後在誘導訓練期間，比較教師網路與學生網路的量化輸出（即L2 loss），完成知識遷移。

量化技術選擇線性均勻方式，原因在於文章以R-FCN或Faster-RCNN作為benchmark，而這兩種檢測網路更關注ROI內部的啟用響應，通常這些響應比較劇烈，因此均勻量化能夠更好地保留輸出資訊。反觀INQ採用的非均勻量化能夠更好地描述一般性的啟用或權重分佈（非均勻、近高斯分佈）。文章採用的量化表示如下：

引入知識蒸餾之後，全精度形式的總loss如下：

上式中，Lm表示教師網路與學生網路中RPN輸出的ROI範圍內Feature Maps之間的L2 Loss（Hint within ROIs），其量化形式如下：

為了能夠讓tiny network輸出的FMs與teacher network輸出的FMs相匹配（維度匹配），需要將低維度流形通過量化推至高緯度離散空間，具體如下：

文章最後通過Quantization Mimic取得了良好的量化與遷移效果，尤其是教師網路與學生網路均予以量化的情況下，具體見文章實驗部分。

結合量化的知識蒸餾（Quantization Mimic）

結合量化的知識蒸餾（Quantization Mimic）

知識蒸餾（Knowledge Distillation）的Pytorch實現以及分析

知識蒸餾（Distillation）相關論文閱讀（1）——Distilling the Knowledge in a Neural Network（以及程式碼復現）

eclipse知識積累（3-1）查找關鍵字

linux雲自動化運維基礎知識9（openssh-server）

linux雲自動化運維基礎知識7（進程）

linux雲自動化運維基礎知識22（系統恢復）

linux雲自動化運維基礎知識23（DNS服務）

[硬件知識]OP（Over-provisioning）預留空間

iOS 知識梳理（響應鏈）

iOS - 知識梳理（雜集）

畢向東—Java基礎知識總結（超級經典）

linux基礎知識整理（備忘）

一張圖概括必學的web前端學習知識路線圖（儲存收藏）

【夾娃系列】java面試基礎知識儲備（￥1）——java的優點和C++的異同點

【夾娃系列】java面試基礎知識儲備（￥2）——JVM記憶體劃分和記憶體溢位異常的原因和解決方法

網路基礎知識彙總（持續更新）

通俗易懂解釋知識圖譜（Knowledge Graph）

MySQL資料庫基礎知識三（事務處理）

JAVA面試常問知識總結（十一）——Servlet

結合量化的知識蒸餾（Quantization Mimic）

相關推薦