深度學習論文: EasyQuant: Post-training Quantization via Scale Optimization及其PyTorch實現

阿新 • • 發佈：2020-10-17

深度學習論文: EasyQuant: Post-training Quantization via Scale Optimization及其PyTorch實現
EasyQuant: Post-training Quantization via Scale Optimization
PDF:https://arxiv.org/abs/2006.16669v1.pdf
PyTorch: https://github.com/shanglianlm0525/PyTorch-Networks

1 概述

EasyQuant通過引入cos 相似性作為目標函式，通過交替搜尋權值(weights)和啟用(activations)的量化因子(scale)來最大化量化前後啟用值的 cos相似性，來找到權值和啟用值的最優量化因子。

權值量化因子
TRT: w e i g h t s c a l e = 128 / m a x ( a b s ( w e i g h t ) ) weight_scale = 128/max(abs(weight)) weightscale=128/max(abs(weight))
Tensorflow: w e i g h t s c a l e = 128 / m a x ( a b s ( w e i g h t ) ) weight_scale = 128/max(abs(weight)) weightscale=128/max(abs(weight))
啟用量化因子
TRT: 通過計算KL散度的方式來確定最佳閾值從而得到量化因子

*Tensorflow:*訓練中,使用EMA(exponential moving average)公式 m o v e m a x = m o v e m a x ∗ m o n m e n t + m a x ( a b s ( c u r r a c t i v a t i o n ) ) ( 1 − m o n m e n t ) move_max =move_max * monment + max(abs(curr_activation))(1-monment) movemax=movemax∗monment+max(abs(curractivation))(1−monm

ent)
,訓練後通過計算 a c t i v a t i o n s c a l e = 128 / m o v e m a x activation_scale = 128/move_max activationscale=128/movemax

2 Scale Optimization

假設 X 為輸入張量, S為量化尺度因子,則量化公式表示為
在這裡插入圖片描述
其中表示elementwise點乘操作, Round表示取整操作, Clip表示截斷操作.則對於卷積操作

權值(int8)量化和輸入啟用(int8)量化得到的第l層量化輸出啟用（int32）再反量化的結果(float32) 為

EasyQuant通過引入cos 相似性作為目標函式,優化原始浮點啟用輸出與量化實現得到反量化輸出的 cos 相似性(cos越大越相似)
在這裡插入圖片描述
來搜尋權值和啟用值的量化因子,實際求解通過交替優化兩個的量化因子來求解

3 INT7 Post-training Inference

相對於int8，int7可以有更好的加速效果。所以EasyQuant在實際端上推理階段則採用權值和啟用 int7 量化，中間 int16 累加器累加最多八次的方式，使得推理速度優於權值和啟用 int8 量化，中間 int16 累加器只能累加兩次(溢位)的方式，同時還可以比較好的保持量化後演算法的精度。
在這裡插入圖片描述

4 Experiments

4-1 與PTQ比較

在這裡插入圖片描述

4-2 與QAT比較

在這裡插入圖片描述

4-3 與TRT低於8位元時比較

在這裡插入圖片描述

深度學習論文: EasyQuant: Post-training Quantization via Scale Optimization及其PyTorch實現

1 概述

2 Scale Optimization

3 INT7 Post-training Inference

4 Experiments

4-1 與PTQ比較

4-2 與QAT比較

4-3 與TRT低於8位元時比較

深度學習論文: EasyQuant: Post-training Quantization via Scale Optimization及其PyTorch實現

深度學習論文翻譯解析（八）：Rich feature hierarchies for accurate object detection and semantic segmentation

深度學習論文翻譯解析（九）：Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition

深度學習論文翻譯解析（十）：Visualizing and Understanding Convolutional Networks

【公開課】李沐大佬：深度學習論文精讀

【深度學習論文篇 02-1 】YOLOv1論文精讀

SRCNN論文與應用簡介：基於深度學習的影象超解析度方法

深度學習：人群密度估計Residual Regression和Semantic Prior論文（CVPR2019）解讀

影象去霧畢業論文準備09-深度學習框架（tensorflow2.0）——超級詳細（手寫體資料載入、獨熱編碼one-hot）

irca slam與深度學習結合論文總結

[原始碼解析] 深度學習分散式訓練框架 horovod (20) --- Elastic Training Operator

論文中遇到的深度學習名詞解釋（持續更新）

【前沿】TensorFlow Pytorch Keras程式碼實現深度學習大神Hinton NIPS2017 Capsule論文

多層感知機還在進步，關於深度學習中MLP的5篇最新的論文推薦

深度學習入門之Pytorch 資料增強的實現

人工智慧深度學習入門練習之（23）TensorFlow – 高階API

Ubuntu k80深度學習環境搭建

深度學習“四大名著”釋出！Python、TensorFlow、機器學習、深度學習四件套！

深度學習面試題35：RNN梯度消失問題(vanishing gradient)

PyTorch 深度學習實踐 - 基礎篇

深度學習論文: EasyQuant: Post-training Quantization via Scale Optimization及其PyTorch實現

1 概述

2 Scale Optimization

3 INT7 Post-training Inference

4 Experiments

4-1 與PTQ比較

4-2 與QAT比較

4-3 與TRT低於8位元時比較

相關推薦