模型蒸餾相關記錄

阿新 • • 發佈：2022-03-04

參考這篇文章：

https://zhuanlan.zhihu.com/p/24337627

有研究表明深度模型具有較大的資訊引數冗餘。因此我們可以通過一定的技術方法對複雜的模型進行去冗餘壓縮。現有的壓縮方法主要可以下四類：

淺層網路：通過設計一個更淺（層數較少）結構更緊湊的網路來實現對複雜模型效果的逼近。但是淺層網路的表達能力很難與深層網路相匹敵【1】。因此，這種設計方法的侷限性在於只能應用解決在較為簡單問題上。如分類問題中類別數較少的task。




直接壓縮訓練好的複雜模型：直接對訓練得到的複雜模型採用矩陣量化【2】、Kronecker內積、霍夫曼編碼、模型剪枝【3】等優化方式，對模型中的引數進行量化。以實現對模型的壓縮，部署階段採用量化過後的模型可以同時達到引數壓縮和提速的效果。



多值網路：最為典型就是二值網路【 
4】、XNOR【5】網路等。其主要原理就是採用1bit對網路的輸入、權重、響應進行編碼。減少模型大小的同時，原始網路的卷積操作可以被bit-wise運算代替，極大提升了模型的速度。但是，如果原始網路結果不夠複雜（模型描述能力），由於二值網路會較大程度降低模型的表達能力。因此現階段有相關的論文開始研究n-bit編碼【6】方式成為n值網路或者多值網路來克服二值網路表達能力不足的缺點。




蒸餾模型：蒸餾模型採用的是遷移學習，通過採用預先訓練好的複雜模型（Teacher model）的輸出作為監督訊號去訓練另外一個簡單的網路。這個簡單的網路稱之為student model。

下面我們將著重介紹蒸餾模型壓縮方法，文章來自Geoffrey Hinton《Distilling the Knowledge in a Neural Network》【7】

但是上面的文章沒有圖，所以看了下面的文章：

https://mp.weixin.qq.com/s/tKfHq49heakvjM0EVQPgHw

《BERT蒸餾完全指南｜原理/技巧/程式碼》

是從下面的文章連結過去的：

https://zhuanlan.zhihu.com/p/71986772

《深度神經網路模型蒸餾Distillation》

模型蒸餾相關記錄

參考這篇文章： https://zhuanlan.zhihu.com/p/24337627 有研究表明深度模型具有較大的資訊引數冗餘。因此我們可以通過一定的技術方法對複雜的模型進行去冗餘壓縮。現有的壓縮方法主要可以下四類：

Android application類相關記錄

本篇文章記錄一些Android中application類的作用，內容介紹。 Android系統會為每個程式執行時建立一個Application類的物件且僅建立一個，所以Application可以說是單例 (Singleton)模式的一個類。且 == Appli

spark+hadoop錯誤相關記錄

spark+hadoop錯誤相關記錄：錯誤1：java.lang.Exception: Unknown container. Container either has not started ...Yarn

模型蒸餾工作 & logit

接上一篇文章： https://www.cnblogs.com/charlesblc/p/15965479.html 今天重點看這篇文章：

NLP之預訓練模型＋模型蒸餾與壓縮

一、分散式詞表示（直接使用低維、稠密、連續的向量表示詞）（靜態的表示）

【教程】如何提取碧藍檔案中的Q版模型、武器模型、相關材質、動作等 (AssetStudio)

【事先說明】 1.這個都只是我個人的經驗，不一定能完美適用於所有系統環境，但是大致思路就是這麼個樣子，如果哪裡卡住的話那我可能多半愛莫能助，我已經儘可能很詳細了；

Spark記憶體模型介紹及Spark應用記憶體優化踩坑記錄

Spark作為一個基於記憶體的分散式計算引擎，其記憶體管理模組在整個系統中扮演著非常重要的角色。理解Spark記憶體管理的基本原理，有助於更好的開發Spark應用程式和進行效能調優。同時，有效率的記憶體使用是Spark應

Java記憶體模型可見性問題相關解析

這篇文章主要介紹了Java記憶體模型可見性問題相關解析,文中通過示例程式碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下

Java記憶體模型相關知識總結

【1】CPU和快取的一致性我們應該都知道，計算機在執行程式的時候，每條指令都是在CPU中執行的，而執行的時候，又免不了要和資料打交道。而計算機上面的資料，是存放在主存當中的，也就是計算機的實體記憶體啦。

淺談keras的深度模型訓練過程及結果記錄方式

記錄訓練過程 history=model.fit(X_train,Y_train,epochs=epochs,batch_size=batch_size,validation_split=0.1)

記錄模型訓練時loss值的變化情況

記錄訓練過程中的每一步的loss變化 if verbose and step % verbose == 0: sys.stdout.write(\'\\r{} / {} : loss = {}\'.format(

3、init_sequence_f[]中驅動模型和外設相關初始化

本章所涉及的函式如下： 1 static init_fnc_t init_sequence_f[] = { 2arch_cpu_init,/* CPU相關初始化，若沒有，則返回0即可 */

.net+uniapp 前後端資料互動相關問題記錄

uniapp 提交form表單 @submit EventHandle 攜帶 form 中的資料觸發 submit 事件，event.detail = {value : {\'name\': \'value\'} , formId: \'\'}，report-submit 為 true 時才會返回 formId

深度學習模型調優方法（Deep Learning學習記錄）

深度學習模型的調優，首先需要對各方面進行評估，主要包括定義函式、模型在訓練集和測試集擬合效果、交叉驗證、啟用函式和優化演算法的選擇等。

併發程式設計之生產者消費者模型以及執行緒等相關內容-38

1.生產者消費者模型 # 初級生產者消費者模型# import time# import random# from multiprocessing import Process, Queue### def producer(name, food, q):#for i in range(10):#data = \'%s 製造了%s\' % (name, fo