深度學習---花書總結
本文總結均是在花書(Deep Learning)的中文版頁碼標記。
1.列舉常見的一些範數及其應用場景,如L0,L1,L2,L∞,Frobenius範數
答:p24 ;還有p139regularization的應用
2.簡單介紹一下貝葉斯概率與頻率派概率,以及在統計中對於真實引數的假設。
答:p30
3.概率密度的萬能近似器
答:p43:3.10上面那一段
4.簡單介紹一下sigmoid,relu,softplus,tanh,RBF及其應用場景
答:sigmoid和softplus在p43頁;全部的在p119
5.Jacobian,Hessian矩陣及其在深度學習中的重要性
答:p53
6.KL散度在資訊理論中度量的是那個直觀量
答:p47
7.數值計算中的計算上溢與下溢問題,如softmax中的處理方式
答:p52
8.與矩陣的特徵值相關聯的條件數(病態條件)指什麼,與梯度爆炸與梯度彌散的關係
答:p53;p173
9.在基於梯度的優化問題中,如何判斷一個梯度為0的零界點為區域性極大值/全域性極小值還是鞍點,Hessian矩陣的條件數與梯度下降法的關係
答:p53
10.KTT方法與約束優化問題,活躍約束的定義
答:p60
11.模型容量,表示容量,有效容量,最優容量概念
答:p70
12.正則化中的權重衰減與加入先驗知識在某些條件下的等價性
答:p74
13.高斯分佈的廣泛應用的緣由
答:p40
14.最大似然估計中最小化KL散度與最小化分佈之間的交叉熵的關係
答:p82
15.線上性迴歸問題,具有高斯先驗權重的MAP貝葉斯推斷與權重衰減的關係,與正則化的關係
答:p85
16.稀疏表示,低維表示,獨立表示
答:p92
17.列舉一些無法基於地圖(梯度?)的優化來最小化的代價函式及其具有的特點
答:p99 最頂一段
18.在深度神經網路中,引入了隱藏層,放棄了訓練問題的凸性,其意義何在
答:p122
19.函式在某個區間的飽和與平滑性對基於梯度的學習的影響
答:p99
20.梯度爆炸的一些解決辦法
答:p185
21.MLP的萬能近似性質
答:p126
22.在前饋網路中,深度與寬度的關係及表示能力的差異
答:p126
23.為什麼交叉熵損失可以提高具有sigmoid和softmax輸出的模型的效能,而使用均方誤差損失則會存在很多問題。分段線性隱藏層代替sigmoid的利弊
答:p139
24.表示學習的發展的初衷?並介紹其典型例子:自編碼器
答:p1
25.在做正則化過程中,為什麼只對權重做正則懲罰,而不對偏置做權重懲罰
答:p141
26.在深度學習神經網路中,所有的層中考慮使用相同的權重衰減的利弊
答:p141
27.正則化過程中,權重衰減與Hessian矩陣中特徵值的一些關係,以及與梯度彌散,梯度爆炸的關係
答:p141
28.L1/L2正則化與高斯先驗/對數先驗的MAP貝葉斯推斷的關係
答:p145
29.什麼是欠約束,為什麼大多數的正則化可以使欠約束下的欠定問題在迭代過程中收斂
答:p147
30.為什麼考慮在模型訓練時對輸入(隱藏單元/權重)新增方差較小的噪聲,與正則化的關係
答:p148-p149
31.共享引數的概念及在深度學習中的廣泛影響
答:p150;p157
32.Dropout與Bagging整合方法的關係,以及Dropout帶來的意義與其強大的原因
答:p258-p268
33.批量梯度下降法更新過程中,批量的大小與各種更新的穩定性關係
答:p279
34.如何避免深度學習中的病態,鞍點,梯度爆炸,梯度彌散
答:p158-p167
35.SGD以及學習率的選擇方法,帶動量的SGD對於Hessian矩陣病態條件及隨機梯度方差的影響
答:p180;p183
36.初始化權重過程中,權重大小在各種網路結構中的影響,以及一些初始化的方法;偏置的初始化
答:初始化權重:p184;偏置初始化:p184
37.自適應學習率演算法:AdaGrad,RMSProp,Adam等演算法的做法
答:187
38.二階近似方法:牛頓法,共軛梯度,BFGS等的做法
答:牛頓法:p190; 共軛梯度:p191BFGS:p193
39.Hessian的標準化對於高階優化演算法的意義
答:p194
40.卷積網路中的平移等變性的原因,常見的一些卷積形式
答:平移等變性:p204;常見的一些卷積形式:p210-218
41.pooling的做法的意義
答:p207-210
42.迴圈神經網路常見的一些依賴迴圈關係,常見的一些輸入輸出,以及對應的應用場景
答:p228-p239
43.seq2seq,gru,lstm等相關的原理
答:seq2seq:p239-p397; gru:p248; lstm:p248
44.取樣在深度學習中的意義
答:p279
45.自編碼器與線性因子模型,PCA,ICA等的關係
答:自編碼器與線性因子模型:p297;PCA:p298;ICA:p298
46.自編碼器在深度學習中的意義,以及一些常見的變形與應用
答:意義:p304; 常見變形:p304-p309;p307-p310; p314應用:p311-p317;p317
47.受限玻爾茲曼機廣泛應用的原因
答:p278:想特別瞭解的人注意這句話: See Mohamed et al. (2012b) for an analysis of reasons for the successof these models.
48.穩定分佈與馬爾可夫鏈
答:p360
49.Gibbs取樣的原理
答:p365
50.配分函式通常難以計算的解決方案
答:p365
51.幾種引數估計的聯絡與區別:MLE/MAP/貝葉斯
答:P82-P88
52.半監督的思想以及在深度學習中的應用
答:p329
53.舉例CNN中的channel在不同資料來源中的含義
答:p219
54.深度學習在NLP,語音,影象等領域的應用及常用的一些模型
答:p274
55.word2vec與glove的比較
56.注意力機制在深度學習的某些場景中為何會被大量使用,其幾種不同的情形
答:p290
57.wide&deep模型中的wide和deep介紹
58.核迴歸與RBF網路的關係
答:p88
59.LSTM結構推導,為什麼比RNN好?
答:p245-p250
60.過擬合在深度學習中的常見的一些解決方案或結構設計
答:p141;包括:ParameterNorm Penalties( 引數範數懲罰); Dataset Augmentation (資料集增強); Early Stopping(提前終止); Parameter Tying andParameter Sharing (引數繫結與引數共享); Bagging and OtherEnsemble Methods(Bagging 和其他整合方法);Dropout. 另外還有Batch Normalization。
61.怎麼理解貝葉斯模型的有效引數資料會根據資料集的規模自動調整
答:關於非引數模型:p70 ;非引數模型不依賴於特定的概率模型,它的引數是無窮維的,資料集的規模的大小影響著模型使用更多或者更少的引數來對其進行建模。(並未在書中找到準確的答案,若有更好的回答,請聯絡我改正)