深度學習-模型壓縮之Quantization & Binarization方向論文閱讀筆記

阿新 • • 發佈：2019-02-13

深度學習-模型壓縮之Quantization & Binarization方向論文閱讀筆記

論文：Binarized Neural Networks: Training Neural Networks with Weights and Activations Constrained to +1 or 1

Weight and Activation
首先，該論文主要把weight和啟用函式結果activation在訓練時都做了二元化操作。具體來說，文章介紹了兩種binarization方法，確定法（deterministic）和隨機法（stochastic）:
- deterministic：給定x，若x > 0，返回+1，反之返回-1。
- stochastic：根據x的值，計算返回+1的概率p，在做二元化操作時，以p為概率返回1，反之返回-1。具體p的計算公式為 σ(x)=clip(x+12,0,1)=max(0,min(1,x+12)))
這裡有一個例外，就是input layer，它的輸出通常是image資訊，文中並沒將其binarized。
Gradient
- gradient在實現中保留了浮點數的形式，原因應該是為了保證SGD的有效。
- 在計算gradient時，會對weights和activations加一些noise以增加generalization。（待定，看論文公佈的實現再確認）
Propagation
- 因為前向的時候相當於是對weight和activation求了個sign函式，而sign()的導數幾乎處處為0，這顯然沒法用到後向的計算中，因此需要找到一個sign函式導數的估計。
- 論文中選擇的是1|r|<=1，這個方法被稱作“straight-through estimator”。事實上這個函式也是hard tanh的導數。Htanh(x)=Clip(x,−1,1)。
- 具體來說，對activation和weight的操作如下：
  - activation：使用sign函式作為非線性啟用函式
  - weight：1. 更新weight時，把實數weight控制在[-1, +1]之間； 2. 在weight使用前先做binarization。

具體來說計算的虛擬碼如下：

### 論文：Deep Learning with Low Precision by Half-wave Gaussian Quan

由上文可知，在forward propagation時對activation取sign函式，在backward propagation時取1|r|<=1，其實本質上是對hTan（hyperbolic tangent）的低精度估計。然而在影象識別以及其他深度學習模型中，ReLU越來越多地被用於啟用函式。

這篇文章就提出了一種針對ReLU的低精度估計。具體來說，

Forward Propagation：在前向計算時，文章使用了quantization技術來估計ReLU函式g(x)=max(0,x)。就是把(0,+∞]區間用一組ti,i∈{1,2,...,m}切割成m + 1份，並使得每個(ti,ti+1]區間內為一個常數值（例如等於ti），將以此生成的分段函式Q(x)=qi,ifx∈(ti,tt+1]來估計ReLU。這麼做的好處是不需要將activation存成高精度來保持計算結果，而只需根據切分的分數m安排實際activation的資料型別。

另外，{ti}的選擇有多種，例如可以均勻分佈的{ti}，也就是使得ti+1−ti=Δ,Δ∈R1（Tensorflow使用的量化方法在此處類似），也可以使用符合正態分佈的{ti}，這種選擇正太分佈來切割(0,+∞]來估計ReLu的方法就是論文的題目，Half - wave Gaussian Quantization。這個選擇其實更符合邏輯，因為本身做BN的一個假設也是activation是符合正態分佈的。然而論文中最終的實證結果是兩種方法效果差不都。
Backward Propagation：在後向計算時，ReLU同樣遇到上文提到的導數幾乎處處為0的情況，一樣也需要有個估計方法，文中提供了兩個方法.
- Clipped ReLU：
$$\tilde{Q_c}(x) = \begin{equation}\begin{cases}q_m, &{x > q_m,}\

x, &x\in(0, q_m],\
1. &otherwise,\end{cases}\end{equation}$$
對應的，導數就是在(0，qm]中為1，其餘為0.
- Log-tailed ReLU
$$\tilde{Q_c}(x) = \begin{equation}\begin{cases}q_m + log(x - \gamma), &{x > q_m,}\

x, &x\in(0, q_m],\
1. &otherwise,\end{cases}\end{equation}$$
對應的導數就是

$$\tilde{Q_c}^{\prime}(x) = \begin{equation}\begin{cases}1 / (x - \gamma), &{x > q_m,}\

1, &x\in(0, q_m],\
1. &otherwise,\end{cases}\end{equation}$$
理論上log-tailed ReLU的估計應該更符合邏輯，因為他同時考慮了outer lier的效果，但論文的實證效果說明兩種backward的估計效果差不多。

論文：Neural Networks With Few Multiplications

深度學習-模型壓縮之Quantization & Binarization方向論文閱讀筆記

深度學習-模型壓縮之Quantization & Binarization方向論文閱讀筆記論文：Binarized Neural Networks: Training Neural Networks with Weights and Activa

基於深度學習的影象去噪暨SRMD論文閱讀筆記

最近一直在做基於卷積神經網路的影象去噪~感覺資料比較凌亂，本博文就是整理好經典的論文材料~ 同時本博文也結合了閱讀論文《Learning a Single Convolutional Super-Resolution Network for Multiple Degradations》時的心

深度學習模型壓縮與加速演算法之SqueezeNet和ShuffleNet

自從AlexNet一舉奪得ILSVRC 2012 ImageNet影象分類競賽的冠軍後，卷積神經網路（CNN）的熱潮便席捲了整個計算機視覺領域。CNN模型火速替代了傳統人工設計（hand-crafted）特徵和分類器，不僅提供了一種端到端的處理方法，還大幅度地重新整理了各個影

深度學習模型壓縮方法綜述（一）

前言目前在深度學習領域分類兩個派別，一派為學院派，研究強大、複雜的模型網路和實驗方法，為了追求更高的效能；另一派為工程派，旨在將演算法更穩定、高效的落地在硬體平臺上，效率是其追求的目標。複雜的模型固然具有更好的效能，但是高額的儲存空間、計算資源消耗是使其難以有

深度學習模型壓縮與加速綜述

遷移學習：將一個模型的效能遷移到另一個模型上網路精餾：在同一個域上遷移學習的一種特例。 [2006,Bucila,SIGKDD]Model Compression 思想：通過整合強分類器標註的偽資料訓練了一個壓縮模型，並再現了原大型網路的輸出結果。缺點：僅限於淺層網路。 [2014,Hi

深度學習模型壓縮方法（4）-----模型蒸餾（Distilling）與精細模型網路

前言在前兩章，我們介紹了一些在已有的深度學習模型的基礎上，直接對其進行壓縮的方法，包括核的稀疏化，和模型的裁剪兩個方面的內容，其中核的稀疏化可能需要一些稀疏計算庫的支援，其加速的效果可能受到頻寬、稀疏度等很多因素的制約；而模型的裁剪方法則比較簡單明瞭，直接在原有的模型上剔

深度學習模型壓縮方法綜述（三）

前言在前兩章，我們介紹了一些在已有的深度學習模型的基礎上，直接對其進行壓縮的方法，包括核的稀疏化，和模型的裁剪兩個方面的內容，其中核的稀疏化可能需要一些稀疏計算庫的支援，其加速的效果可能受到頻寬、稀疏度等很多因素的制約；而模型的裁剪方法則比較簡單明瞭，直接在原有的模型上剔除掉

深度學習模型壓縮方法和框架

模型壓縮的兩種方法：一、設計輕量級的模型（SqueezeNet，MobileNet，ShuffleNet等）：不需要壓縮。二、模型結構/記憶體優化：剪枝、權值量化等二、模型結構/記憶體優化目前的框架主要有： Deep Compression、XNorNe

深度學習模型壓縮與優化加速（Model Compression and Acceleration Overview）

1. 簡介深度學習（Deep Learning）因其計算複雜度或引數冗餘，在一些場景和裝置上限制了相應的模型部署，需要藉助模型壓縮、優化加速、異構計算等方法突破瓶頸。模型壓縮演算法能夠有效降低引數冗餘，從而減少儲存佔用、通訊頻寬和計算複雜度，有助於深度學習的應用部署，

騰訊AI Lab正式開源PocketFlow自動化深度學習模型壓縮與加速框架

感謝閱讀騰訊AI Lab微訊號第54篇文章，11月2日，騰訊AI Lab在南京舉辦的騰訊全球合作

【論文筆記】《基於深度學習的中文命名實體識別研究》閱讀筆記

作者及其單位：北京郵電大學，張俊遙，2019年6月，碩士論文摘要實驗資料：來源於網路公開的新聞文字資料；用隨機欠取樣和過取樣的方法解決分類不均衡問題；使用BIO格式的標籤識別5類命名實體，標註11種標籤。學習模型：基於RNN-CRF框架，提出Bi-GRU-Attention模型；基於改進的ELMo可

深度學習模型網路學習之分類網路學習

1. VGG 作者團隊，發表時間 University of Oxford， ICLR-2015 文章解決的問題提高分類準確率解決的方案只使用3x3的卷

深度學習實踐系列之--身份證上漢字及數字識別系統的實現（上）

手動 ear 常用 env 窗口 mic 文件下載 oot edr 前言：本文章將記錄我利用深度學習方法實現身份證圖像的信息識別系統的實現過程，及學習到的心得與體會。本次實踐是我投身AI的初次系統化的付諸實踐，意義重大，讓自己成長許多。終於有空閑的時間，將其

[ZZ] 深度學習三巨頭之一來清華演講了，你只需要知道這7點

動態能夠關系領域那一刻計劃 world 哪些 net 深度學習三巨頭之一來清華演講了，你只需要知道這7點 http://wemedia.ifeng.com/10939074/wemedia.shtml Yann LeCun還提到了一項FAIR開發的，用於

使用GOOGLE COLAB訓練深度學習模型

edi play bottom art one con style right tag 來自為知筆記(Wiz)使用GOOGLE COLAB訓練深度學習模型

深度學習模型相關知識（2）

fas bubuko 深度學習 image ive bsp 提取 AS 簡寫參考：https://blog.csdn.net/lanran2/article/details/60143861 ROI pooling： ROI是Regin of Interest的簡寫，指的

用深度學習模型Word2Vec探索《紅樓夢》人物關系

繼續 comment block for lse r+ not 百度構建先來看一看結果，發現： 1.賈寶玉和襲人的關系最近。 2.薛寶釵和自己的媽媽關系最近。 3.賈寶玉和林黛玉逼格比較統一，薛寶釵屬於獨樹一幟的逼格調性。 4.大觀園中可以看到邢岫煙經常出沒... 還有

Opencv呼叫深度學習模型

https://blog.csdn.net/lovelyaiq/article/details/79929393 Opencv呼叫深度學習模型 2018年04月13日 15:19:54 TiRan_Yang 閱讀數：1150更多

利用Google免費GPU跑深度學習模型

還在為電腦沒有很好的GPU而煩惱麼，這個教程教你隨時利用Colab中的Tesla K80顯示卡跑深度學習模型先從價格上感受下Tesla K80 首先想體驗Colab，必須先學會科學上網，可以利用VPS買國外結點的伺服器，利用Shadowsockes搭梯子，具體教程可以參考其他博主，在此不做贅述。

######好好好，本質#####基於LSTM搭建一個文字情感分類的深度學習模型:準確率往往有95%以上

基於情感詞典的文字情感分類傳統的基於情感詞典的文字情感分類，是對人的記憶和判斷思維的最簡單的模擬，如上圖。我們首先通過學習來記憶一些基本詞彙，如否定詞語有“不”，積極詞語有“喜歡”、“愛”，消極詞語有“討厭”、“恨”等，從而在大腦中形成一個基本的語料庫。然後，我們再對輸入的句子進行最直接

深度學習-模型壓縮之Quantization & Binarization方向論文閱讀筆記

深度學習-模型壓縮之Quantization & Binarization方向論文閱讀筆記

論文：Binarized Neural Networks: Training Neural Networks with Weights and Activations Constrained to +1 or 1

論文：Neural Networks With Few Multiplications

相關推薦