1. 程式人生 > >深度學習論文整理

深度學習論文整理

個人閱讀的Deep Learning方向的paper整理,分了幾部分吧,但有些部分是有交叉或者內容重疊,也不必糾結於這屬於DNN還是CNN之類,個人只是大致分了個類。目前只整理了部分,剩餘部分還會持續更新。

一 RNN

1 Recurrent neural network based language model

  RNN用在語言模型上的開山之作

2 Statistical Language Models Based on Neural Networks

  Mikolov的博士論文,主要將他在RNN用在語言模型上的工作進行串聯

3 Extensions of Recurrent Neural Network Language Model

  開山之作的延續,RNN網路的一些改進,如通過類別資訊去降低模型的引數

4 A guide to recurrent neural networks and backpropagation

  RNN網路的介紹以及優化演算法,是瞭解RNN網路的好文章

5 Training Recurrent Neural Networks

  Ilya Sutskever的博士論文,RNN網路的訓練一直是個難點,介紹RNN網路的訓練優化方法

6 Strategies for Training Large Scale Neural Network Language Models

  介紹訓練RNN網路訓練語言模型的一些Trick

7 Recurrent Neural Networks for Language Understanding

  RNN網路語義理解方面的工作

8 Empirical Evaluation and Combination of Advanced Language Modeling Techniques

  介紹一些語言模型聯合技術的一些經驗,其中有RNN語言模型與其他模型combinine的工作

9 Speech Recognition with Deep Recurrent Neural Networks

  RNN網路用在語音識別方面的工作

10 A Neural Probabilistic Language Model

  不是RNN,Yoshua Bengio早期將神經網路用於訓練語言模型的工作,也算是為後續的RNN用於語言模型鋪好了基礎。

11 On the diffculty of training Recurrent Neural Networks

  介紹了RNN網路訓練的難點,比如消失的梯度,以及提出的一些解決方法

12 Subword Language Modeling with Neural Networks

   詞級的語言模型由於OOV問題對新詞不適應,而字元級的語言模型雖然能克服這種問題,但是模型訓練的複雜度要提升,

   為了將兩種特性結合提出了子詞級的RNN語言模型訓練,文中還利用k-means對模型引數進行了壓縮處理。

13 Performance Analysis of Neural Networks in Combination with N-Gram Language Models

   關於N-gram和神經網路語言模型聯合模型的效能分析,從實驗的角度分析效能會提升

14 Recurrent Neural Network based Language Modeling in Meeting Recognition

   利用RNN與N-gram結合,重估得分提升語音識別系統性能

二 DNN

1 A practical guide to training restricted Boltzmann machines

  介紹RBM以及訓練RBM時的N多trick,如果要實現RBM演算法,這篇文章必看

2 A fast learning algorithm for deep belief nets

  Hinton的經典之作,Deep Learning的開山之作,算是Deep Learning爆發的起點

3 A Learning Algorithm for Boltzmann Machines

  85年較老的介紹如何Boltzmann訓練演算法

4 Greedy Layer-Wise Training of Deep Networks

  可以看作Yoshua Bengio對06年Hinton工作的延續和總結,與06年的文章很具有互補性,是入門Deep Learning的必備文章

  文章中也介紹了一些trick,如如何處理第一層節點為實值的情況等等

5 Large Scale Distributed Deep Networks

  google的Jeffrey Dean小組工作,DistBelief框架的提出,主要介紹了google如何採用分散式以及模型切分處理深度網路,加速其訓練效果。

6 Context Dependent Pretrained Deep Neural Networks fo Large Vocabulary Speech Recognition

  微軟在語音上的成功應用,語音識別系統相對錯誤率降了20%多,算是Deep Learning在工業界第一個成功案例,其影響轟動一時。

7 Deep Belief Networks for phone recognition

  Hinton小組將DNN用於語音上的早期工作,是微軟工作的基礎

8 Application Of Pretrained Deep Neural Networks To Large Vocabulary Speech Recognition

  DNN在大詞彙量會話語音識別工作,裡面有一些Voice Search和Youtube上的實驗報道

9 An Empirical Study of Learning Rates in Deep Neural Networks for Speech Recognition

  google的DNN-HMM語音識別系統上學習率的一些調參經驗

10 Acoustic Modeling using Deep Belief Networks

  Hinton小組早期在語音上的工作,主要是介紹如何將DNN運用於聲學模型訓練

11 Deep Neural Networks for Acoustic Modeling in Speech Recognition

  微軟、google、IBM等幾家工業界巨頭對DNN在語音識別上的一些共同觀點

12 Deep Belief Networks Using Discriminative Features for Phone Recognition

  Hinton小組和IBM的對於採用一些區分性特徵訓練DNN網路的工作,採用LDA降維到40維

13 A Comparison of Deep Neural Network Training Methods for Large Vocabulary Speech Recognition

  DNN實驗方面的對比,比如採用不同的預訓練方式:區分性預訓練和DBN生成式預訓練方式對比,以及神經元非線性的改變

14 Asynchronous Stochastic Gradient Desent for DNN Training

  中科院的文章,非同步式的GPU並行訓練,思想基本跟DistBelief差不多,只不過硬體換成了GPU,模型沒有做切分

15 Improving Deep Neural Networks For LVCSR using Rectified Linear Units and Dropout

   利用ReLU和Dropout技術提升DNN-HMM系統

16 Improving the speed of neural networks on CPUs

   google加速神經網路前向傳播速度的工作,如利用定點計算、SIMD技術等

17 Improved Bottleneck Features Using Pretrained Deep Neural Networks

   微軟DNN-HMM系統的相關工作

18 Improved feature processing for Deep Neural Networks

  利用特徵處理技術提升DNN-HMM系統,具體的是對13維MFCC特徵拼接9幀,進行LDA-MLLT變換,最後

  也可加入SAT模組得到處理過的40維特徵,作為DNN-HMM系統

19 Improving neural networks by preventing co-adaptation of feature detectors

  主要講了Dropout技術和其實驗比較結果分析,把Dropout看做模型平均化結果

20 Exploiting Sparseness in Deep Neural Networks fo Large Vocabulary Speech Recognition

   採用soft regularization和convex constraint的手段使DNN模型更加的稀疏化,稀疏化的目的是

   減小模型複雜度,提升計算速度和模型的泛化能力

21 Feature Learning in Deep Neural Networks Studies on Speech Recognition Tasks

   主要從Feature Learning的角度討論DNN網路,討論了為何DNN網路deeper更佳,為什麼DNN能學出更魯邦的特徵等等。

22 Improving Neural Networks with Dropout

   Hinton學生Nitish Srivastava的碩士論文,主要討論了Droput技術在神經網路的作用。

23 Learning Features from Music Audio with Deep Belief Networks

   DNN深度網路在音樂分類的應用,特徵為MFCC,類別為hiphop、blues等曲風型別

24 Low-Rank Matrix Factorization for Deep Neural Network Training with High-Dimensional Output Targets

   IBM方面的工作,利用低秩矩陣分解的技術解決DNN分類層權重引數過多的問題

25 Multilingual Training of Deep Neural Networks

   DNN多語言方面的應用,調優的時候只調分類層引數即可

26 A Cluster-Based Multiple Deep Neural Networks Method for Large Vocabulay Continuous Speech Recognition

   利用類別資訊分資料訓練,然後將所有資料訓練出的小模型資訊整合進了貝葉斯框架,加速了整個訓練過程,但精度會損失,解碼

   也會變慢

27 Restructuring of Deep Neural Network Acoustic Models with Singular Value 

   提出採用SVD技術對權重矩陣進行壓縮,減少模型的複雜度

28 Sparse Feature Learning for Deep Belief Networks

   Marc’Aurelio Ranzato提出的一種unsupervised feature learning的方式,這種訓練的優勢在於低維特性和稀疏特性,

   文中對比了RBM和PCA方法。

29 Training products of experts by minimizing contrastive

   Hinton提出的PoE模型,文中討論瞭如何訓練PoE模型,RBM模型也是一種特殊的PoE模型,RBM的訓練也是從此演化而來,如果

   要理解CD演算法原理,這篇文章必讀。

30 Understanding How Deep Belief Networks Perform Acoustic Modelling

   文中主要討論了DBN模型為什麼在聲學模型訓練會取得較好系統性能的幾個方面,但是沒有理論上的支援.

31 Pipelined Back-Propagation for Context-Dependent Deep Neural Networks

   採用多GPU技術pipelined方式並行訓練網路,文中還提到了一些並行措施,如資料並行化、模型並行化

32 Recent Advances in Deep Learning for Speech Research at Microsoft

   文章主要介紹了微軟在Deep Learning方面工作的進展,如迴歸原始特徵,多工特徵學習、DNN模型的自適應等等

32 Rectified Linear Units Improve Restricted Boltzmann Machines

   介紹ReLU技術在RBM模型上的運用,即非線性層的替換。

33 Reducing the Dimensionality of Data with Neural Networks

   Hinton發表在science上的文章,主要介紹瞭如何利用神經網路進行非線性降維,文中對比了PCA線性降維技術

34 Data Normalization in the Learning of Restricted Boltzmann Machines

   RBM訓練方面資料處理的小trick,對資料進行零均值化處理使RBM訓練更魯邦。

35 Connectionist Probability Estimators in HMM Speech Recognition

   早期神經網路運用於聲學模型訓練的方法,其實也是現在DNN-HMM工作的基礎

36 Deep Learning for Robust Feature Generation in Audio-Visual Emotion Recognition

   Deep Learning在視聽系統情感分析的運用,文中提出了多種視覺訊號與聽覺訊號混合訓練模型

37 Improving Training Time of Deep Belief Networks Through Hybrid Pre-Training And Larger Batch Sizes

   採用混合式的預訓練方式,即生成式預訓練和區分式預訓練相結合方式,文中還認為加大minbatch的尺寸可以增加資料並行化粒度

38 Training Restricted Boltzmann Machines using Approximations to the Likelihood Gradient

   提出訓練RBM的新演算法PCD,與CD演算法不同的是全程只有一條馬爾科夫鏈,引數更新時不用重啟一條新的馬爾科夫鏈,當然這麼做的一個

   假設前提是引數更新時,模型的改變不是很大,文中也提到了採用小的學習率。

39 Classification using Discriminative Restricted Boltzmann Machines

   區分性DRBM的提出,相比於生成式模型RBM優化的是p(x,y)函式,區分性DRBM優化的是p(y|x)函式,而這裡的y是標籤,文中還提出了混合版本。

40 Learning Multiple Layers of Features from Tiny Images

   Hinton學生Alex Krizhevsky的碩士論文,主要是DNN工作的一些串聯

41 Making Deep Belief Networks Effective for Large Vocabulary Continuous Speech Recognition

   討論如何有效訓練DNN,側重於如何並行訓練方面

42 Optimization Techniques to Improve Training Speed of Deep Neural Networks for Large Speech Tasks

   IBM的Tara N. Sainath小組DNN工作上的一些技巧總結,側重於如何提升並行化力度技巧和減少模型引數,IBM主要利用對分類層做低秩矩陣分解。

   而CNN雖然是DNN的演化版本,引數量相對較小,但是目前語音識別中最好的CNN效果跟引數量相近的DNN效果差不多。

43 Parallel Training of Neural Networks for Speech Recognition

   神經網路並行化訓練方面的工作,文中的工作主要分為兩部分:多執行緒多核的並行化和基於SIMD的GPU並行化。

44 Accurate and Compact Large Vocabulary Speech Recognition on Mobile Devices

   google在移動端語音識別實踐性的工作,特別是DNN和LM的優化,DNN的優化方面主要包括定點計算、SIMD加速、Batch lazy計算和frame skipping技術

   語言模型方面也做一定的壓縮技巧。參考價值較大的實戰性文章。

45 Cross-Language Knowledge Transfer Using Multilingual Deep Neural Network with Shared Hidden Layers

   DNN多語言的訓練,所有語言共享相同隱層特徵,而分類層面向不同語言,這種訓練降低了3-5%左右,原因有點類似於transfer learning,

   不同語言之間的知識是可以transfer借鑑的。

46 Improving Wideband Speech Recognition using Mixed-Bandwidth Training Data in CD-DNN-HMM

   利用8-kHz和16-kHz做不同的頻帶的CD-DNN-HMM混合訓練,其中比較重要的是如何設計不同頻帶的filter-bank對準問題,

   文中還有一些關於filter-bank的訓練技巧,如是否採用動態特徵和靜態特徵訓練。

47 Robust Visual Recognition Using Multilayer Generative Neural Networks 

   Hinton學生Yichuan Tang的碩士論文,DNN視覺識別方面工作的串聯

48 Deep Boltzmann Machines

   DBM模型開篇文章。

49 On Rectified Linear Units for Speech Processing

   ReLU在語音識別上的效能分析

三 CNN

1 Deep Convolutional Network Cascade for Facial Point Detection

  CNN用在人臉關鍵點檢測工作

2 Applying Convolutional Neural Networks Concepts to Hybrid NN-HMM Model for Speech Recognition

  CNN運用於語音識別系統

3 ImageNet Classification with Deep Convolutional Neural Networks

  12年Hinton組在ImageNet競賽上的CNN演算法,不過細節不多,裡面介紹了網路中使用的trick,特別是relu

4 Gradient-Based Learning Applied to Document Recognition

  Yann LeCun的經典文章,CNN開山之作,要了解CNN必先讀這篇

5 A Theoretical Analysis of Feature Pooling in Visual Recognition

  Pooling在視覺識別中的原理分析以及視覺識別中的比如HOG、SIFT一些類似手段總結

6 What is the Best Multi-Stage Architecture for Object Recognition

  文中討論了在OR問題上怎麼樣去設計多級結構以獲取較好的識別效能,談的更多地是模型架構上的問題,如通過怎麼樣的結構

  獲取特徵的不變性,怎麼樣去聯合層級的資訊,做視覺的應該好好看看這篇文章

7 Deep Convolutional Neural Networks for LVCSR

  CNN在LVCSR上實際運用

8 Learning Mid-Level Features For Recognition

  這篇論文視覺的應該看下,對當前視覺識別框架的分析以及框架個部分的關聯,比如coding和pooling技術。

9 Convolutional Networks and Applications in Vision

  卷積網路在視覺應用的分析,做視覺的應該看看。文中認為分層的思想是視覺應用當中良好的內部表達。文中將卷積網路拆分成

  Filter Bank層、非線性層、pooling層進行分析。

10 Convolutional Neural Networks Applied to House Numbers Digit Classification

  卷積網路用在房屋數字分類的案例,文中採用了LP pooling技術,通過gaussian kernel產生增大stronger特徵權重,抑制weaker特徵權重的效應。

11 Visualizing and Understanding Convolutional Networks

   卷積網路特徵視覺化方面的工作,非常有意義的工作,通過Deconvnet的方式來視覺化卷積網路層的特徵,藉助於這些特徵可以幫助我們調整模型。

12 Stochastic Pooling for Regularization of Deep Convolutional Neural Networks

   提出隨機pooling技術,不同於max pooling和average pooling,pooling的形式是隨機化選擇的,

   文章觀點認為隨機pooling技術類似於dropout一樣做了正則化作用,等價於輸入影象通過加噪聲形成很多不同複製訓練樣本通過max pooling層,有效地防止過擬合

13 Adaptive Deconvolutional Networks for Mid and High Level Feature Learning

   中層、高層特徵無監督的學習方法,通過Deconvolution方式進行重構學習出影象特徵。

14 Best Practices for Convolutional Neural Networks Applied to Visual Document Analysis

   實踐性的卷積網路方面工作,文中提到如何應對訓練資料較少情況的方法可以參考下。

15 Multi-column Deep Neural Networks for Image Classification

   聯合多個深度網路模型做平均化處理。

16 Differentiable Pooling for Hierarchical Feature Learning

   一種基於高斯方法的Differentiable Pooling提出,閱讀這篇文章先要閱讀13文章,相比max pooling、average pooling在運用

   Deconvolution方式進行重構會有一些優勢。

17 Notes on Convolutional Neural Networks

   較為詳細的卷積神經網路,包括梯度的計算等等。

18 Fast Inference in Sparse Coding Algorithms with Applications to Object Recognition

   非監督學習的演算法PSD,在Sparse Coding框架的基礎上,加了通過非線性變換後的基接近Sparse Coding的稀疏基的限制。

   優化目標函式的時候會先固定住一些引數,思想有點類似於座標梯度下降演算法。

19 Deep Neural Networks for Object Detection

   google用基於DNN(實際是CNN)regression做Object Detection,先析出mask,然後再精確定位。

20 Multi-GPU Training of ConvNets

   多GPU並行訓練卷積網路的一些工程技巧

21 Flexible, High Performance Convolutional Neural Networks for Image Classification

   CNN採用GPU訓練的實戰性文章,算是早期文章。

22 Multi-digit Number Recognition from Street View Imagery using Deep Convolutional Neural Networks

   google街景數字圖片識別,用CNN析出特徵後轉化為有序數字序列識別問題,傳統的OCR數字識別一般是要做分割,

   而這裡作為一個整體序列進行識別,文中還報道了提出模型在多種資料集下的識別率。訓練的框架也是採用google的DistBelief框架。

四 其他

1 An Introduction to Deep Learning

  Deep Learning綜述性的短文,比較簡短,文中只是簡單地提到了一些常用Deep Learning模型

2 The Difficulty of Training Deep Architectures and the Effect of Unsupervised Pre-Training

  文中主要討論了深度結構訓練的難點,從實驗資料的角度分析了預訓練的優勢,文中有一個有趣的觀點,討論預訓練的行為

  類似於正則化權重矩陣。

3 Why Does Unsupervised Pre-training Help Deep Learning

  文章討論了無監督學習會幫助Deep Learning的幾個方面,提出了Pre-training as a Regularizer的觀點,從實驗資料中分析,

  並沒有理論的基礎,這也是Deep Learning的現階段最被人詬病的,沒有完整的理論體系支撐。

4 Learning Deep Architectures for AI

  Yoshua Bengio在Deep Learning的綜述文章,想要大概瞭解Deep Learning領域可以先看看這篇,可以掃著看。

5 Representation Learning A Review and New Perspectives

  Yoshua Bengio的在Representation Learning的綜述性文章。

6 On Optimization Methods for Deep Learning

  文中討論了Deep Learning的幾種優化方式:SGD、L-BFGS、CG。實驗對別了幾種優化方式的優缺點。

7 Using Very Deep Autoencoders for Content-Based Image Retrieval

  用Autoencoder的中間節點表徵影象全域性特徵,用於影象搜尋。

8 Deep Learning For Signal And Information Processing

  2013年龍星機器學習鄧力的講課資料,主要側重於deep learning在語音方面,比較詳細。

9 On the Importance of Initialization and Momentum in Deep Learning

  介紹初始化和Momentum技術在deep learning方面的重要性,更多的是在實驗分析上

10 Dropout Training as Adaptive Regularization

   文章從原理上分析dropout技術,等價於自適應的正則化技術

11 Deep learning via Hessian-free optimization

   目前大部分的Deep learning優化都是基於隨機梯度優化演算法,本文提出了一種基於Hessian-free的二階優化演算法。

12 Deep Stacking Networks For Information Retrival

  DSN網路用在資訊檢索方面的工作

13 Deep Convex Net: A Scalable Architecture for Speech Pattern Classification

  微軟方面為了克服DNN並行化訓練困難所設計出來的模型,在計算的scalability有很大優勢

14 Parallel Training of Deep Stacking Networks

  DSN訓練並行化

15 Scalable CALABLE Stacking and Learning for Building Deep Architectures

  DSN方面的關聯文章,相關的幾篇都可以聯合起來一起看