1. 程式人生 > >參觀筆記:2018 PRCV 頂會頂刊牆展

參觀筆記:2018 PRCV 頂會頂刊牆展

Global Gated Mixture of Second-order Pooling for Imporving Deep Convolutional Neural Network(2018 NIPS,大工李培華組)

論文motivation
(1)現存的池化:一階GAP(全域性均值池化)是很多CNN結構的標配,有研究者提出高階池化來提高效能
(2)缺點:但是這些池化都有個缺點就是假設了樣本服從了單峰分佈,限制了CNN的表達能力。
(3)論文的改進:於是論文提出了基於二階池化的門混合結構來提高CNN對複雜特徵和多模態分佈的建模。

論文貢獻
(1)提出了門混合結構:在最後一層之前,適應性地從N個分組模型中選擇K個模型來生成最後的特徵表示。
(2)提出了帶引數的二階池化

:在N個分組模型中使用了池化層,為了克服一階GAP和二階池化帶來的侷限性,提出了帶引數的二階池化。
(3)實驗:在下采樣的ImageNet-1K和Places365兩個資料集上跑了實驗,以ResNet和WRN為骨架,發現加入本文的模型後能夠提高準確率。

架構解釋
(1)門混合模型:受hinton在ICLR2017的一篇論文“專家混合模型”啟發,提出瞭如下圖所示的結構。對於最後一層之前的輸入X,自適應地從N個CM(元件模型)選擇K個CM來讓X流入,其它分支都關閉,這個K是通過另外的預測層計算得到的。

(2)Balance Loss:單純的門混合模型學習可能會使得模型每次只訓練特定的幾個元件,所以為了讓所有元件都充分訓練,加入了一個Balance Loss,如下所示,讓元件權重的變異係數(標準差除以均值)儘可能小,減小元件權重之間的差異。其中S表示min-batch的大小,\(\omega\)

表示N個分支的權重(向量)。
\[L_B = \alpha (\frac{std(\sum_{s=1}^{S}\omega(X_s))}{\mu(\sum_{s=1}^{S}\omega(X_s))})^2\]

(3)二階池化(SOP):全域性均值池化(一階池化)後得到的特徵圖為1x1xC,而二階池化是計算的是特徵圖之間的協方差,因為有C個特徵圖計算後得到對稱的CxC矩陣。

(4)平方根歸一化的二階池化(SR-SOP):對二階池化後的結果(也就是上面說的協方差)做矩陣的平方根分解,如下公式(用矩陣分解來計算),其中\(X\in \mathbb{R}^{L \times d}\),1表示全為1的L維向量。這麼做的原因是因為在小樣本高維特徵的場景下,用協方差來估計樣本(分佈)並不魯棒,使用平方根後的協方差來估計更加合適。
\[Z = (X^T \hat{J} X)^{1/2} = \Sigma^{1/2} = U \Lambda^{1/2} U^T, \ \hat{J} = \frac{1}{L} (I - \frac{1}{L}11^T)\]

(5)帶引數的二階池化(Parametric SR-SOP):上面的池化都是假設了樣本服從一個高斯分佈的場景下計算的。然而樣本在現實中往往並不是這樣的,於是論文提出了帶引數的二階池化的計算,這種計算基於的假設是樣本服從一個多元的高斯分佈。如下公式,其中\(Q_j\)是可學習的引數,可以用卷積的方式來實現這種矩陣乘法,這就是為什麼上圖中的元件中含有1x1的卷積。
\[ \Sigma = X^T Q_j X\]

個人思考
(1)論文中的門混合模型很直覺,把對於不同樣本最後應該選擇性地讓它經過不同的元件模型,有點類似Inception塊裡面讓樣本經過不同的卷積模組從而讓網路自己學習對於不同的樣本應該用哪些不同的卷積去卷。在論文中可以看到其實是借鑑了hinton的一篇專家混合模型的論文,不管怎麼說,這種分成不同元件模型來進行訓練的想法還是很不錯的。
(2)對於論文中帶引數二階池化的提出,其實之前有看到過涉及二階池化的論文,把最後一層的全域性均值池化換成二階池化,計算協方差可以建模通道和通道之間的關係,以此來提升模型表現,但是論文中在這個基礎上的修改和推進(平方根和帶引數)涉及到一些統計和線性上的知識,感覺比較難想到。
(3)對於論文的實驗,論文用了下采樣的Imagenet(64x64),讓人想到的是,如果跑不動那麼大的資料集,為了保證能跑,可以對影象做下采樣,或者取其中一部分資料來跑,然後比較演算法的時候用別人的演算法也跑一遍,感覺這麼做也是可行的。還有就是做對比實驗的時候最好保證兩個模型的引數處於一個量級,這樣更有說服力。

Global Gated Mixture of Second-order Pooling for Imporving Deep Convolutional Neural Network(2017 CVPR,北郵模式識別組)

motivation和貢獻
(1)資料集:目前的人臉資料集很多是實驗控制得到,缺少in-the-wild的資料集,於是本文提出了一個人臉資料集RAF-DB,收集資料的過程發現人臉表情具有混合屬性而不是單一的一種,如下圖所示,於是把資料集按兩種型別劃分成兩個資料集,除了6種基本表情還有12種混合表情。
(2)DLP-CNN:因為RAF-DB是in-the-wild的,會具有更強的多樣性,所以分類起來會更困難,為了應對這個問題,論文提出了Deep Locality preserving loss,在網路最後加入一個區域性保留loss,使得類內樣本更加緊湊

[Alt text]

關於資料集
(1)採集:用關鍵詞和圖片共享網站的API爬取資料,獲得29672張人臉;
(2)情感標註:僱傭315個標註者(大學裡的學生和員工),開發一個網頁讓他們線上對影象進行標註,選擇7類情感中最符合的情感,每張影象會經過40個人的獨立標註,標註前對他們進行一小時的情感心理學指導;
(3)額外資訊:影象含有精準的位置,人臉區域大小,還有手動標記的5個landmark點(根據這5個landmark計算他們的姿態),同時用Face++ API進行37個landmark點的標註,還手動標註了性別,年齡,種族的基本屬性。
(4)可靠性評估:用EM演算法對標註者進行可靠性評估,最後留下285名標註者的標註資料,最後根據標註資料按6種基本表情劃分一個數據集,按12種混合表情劃分成另一個數據集。
(5)資料集分析和效果評估:做了RAF->CK+ 和CK+ -> RAF的兩個遷移實驗,發現 RAF -> CK+ 表現效果更好,通過分析說明RAF具有更強的多樣性,識別更困難。

關於DLP-CNN
(1)Local Proserving Loss:在最後一層加多一個loss(當然要加一個\(\alpha\)超參控制權重),如下式所示(其中x指的是softmax前一層的輸出特徵),就是計算跟同類中k緊鄰點的距離,希望它們能夠儘量小,這樣就增強了類內樣本的緊湊性,也使得類間樣本距離更遠,如下效果圖。
\[L_{lp} = \frac{1}{2} \sum_{i=1}^{n} \parallel x_i - \frac{1}{k} \sum_{x \in N_k \{x_i\}}x \ \parallel_2^2\]
(2)缺點:加了loss的缺點也很明顯,每次訓練的時候要計算樣本之間的兩兩距離,增加了計算時間。
(3)和center loss的聯絡:當這個k等於nc-1(nc表示所屬類的所有樣本數)時這個loss就是center loss(2016 ECCV提出)。

個人思考
(1)資料集:論文很大一部分在解釋資料集的構成,解釋資料集經過一系列的採集,標註,過濾,分析和評估,有這樣一套過程會更有說服力。其中使用了EM演算法來進行標註者評估,還給出了公式演算法和解釋分析,這樣可以讓人更加可信。
(2)加個loss:加了loss是個常用的創新點,前提是確實有道理,有根據,能夠讓人信服。這個區域性保留loss就很直覺,引入了大家都普遍認同的觀點,類間距離最大,類內距離最小,其實就是經典的fisher分類器的思想。
(3)特殊形式的一般化:區域性保留loss其實就是center loss的一種特殊形式。區域性保留loss把center loss中的nc-1抽象成了一個可變的k,使得模型可以更加靈活,可以看作是將特殊形式一般化。

其它論文

(1)Image Correction via Deep Reciprocating HDR Transformation(2018 CVPR,大工,港城大,騰訊AI Lab)。
做了啥(what):根據相機成像的過程,提出了往復式HDR的思想,用於恢復過曝光或欠曝光影象在影象恢復過程中易丟失的細節。
怎麼做(how):如下圖所示,用了2個encoder-decoder(其中使用了類似ResNet的skip-connect),先將輸入影象轉為HDR(High-Dynamic Range高動態範圍影象)以此獲得更豐富的細節資訊,做一個高動態細節重建。然後再將其經過LDR(Low-Dynamic Range低動態範圍影象)糾正來進行恢復,做一個低動態細節校正。
個人思考:第一個啟發是在encoder-decoder中加入跳連線,組合創新。第二個啟發是用encoder-decoder來輸入對映到另一個空間來獲取更豐富的資訊,然後再映射回原來的空間,有點像在encoder-decoder裡面內嵌了encoder-decoder,對原結構做一個“自包含”來創新,很有腦洞。

(2)Two-stream Collaborative Learning with Spatial-Temporal Attention for Video Classification(2018 TCSVT,北大多媒體資訊處理組)
空間-時間的注意力模型:如圖中上半部分所示,輸入是視訊中的幀資訊和光流資訊,然後使用時間注意力來獲取更具判別資訊的時間幀(動態特徵)。使用空間注意力來獲取顯著性區域(靜態特徵)。
動態-靜態的協作模型:如圖中下半部分所示,指導靜態特徵和動態特徵進行協作,自適應地學習權重(最後做出預測,進行視訊分類)。
個人思考:框架看上去很合理,利用視訊的特點(影象空間上的靜態性和時間上的動態性)來構建網路,然後相互協作。啟發就是要根據實際任務的特點去開腦洞,有理有據,更有道理,更有說服力,本文的模型就是分析了視訊的特點提出的。

(3)Text-to-image Synthesis via Symmetrical Distillation Networks(2018 ACM MM,北大多媒體資訊處理組)
源判別模型:如下圖中的上半部分所示,輸入真實影象和合成影象,產生多水平的特徵,可以作為訓練目標模型的指導。
目標生成模型:如下圖中的下半部分所示,在文字的條件下生成影象,利用了一個蒸餾loss把源判別模型的多層次資訊轉移給目標生成模型。
兩階段蒸餾:第一個階段,目標模型根據源模型給定的資訊和文字資訊得到的視覺資訊,畫出一個模糊的影象。第二個階段,目標模型學到更多合成影象和真實影象之間的細小差異,用更多的細節來合成影象。
個人思考:第一個啟發還是要根據實際問題的特點分析,第二個啟發就是要分解。本文就是把合成問題分解成兩步,第一步是先從真實影象中學習大致特徵,第二部是學習真實影象和生成影象的差異。同時模型也分成了兩個,一個用來提供需要的資訊,一個直接生成。

(4)Modality-Specific Cross-Modal Similarity Measurement With Recurrent Attention Network(2018 TIP,北大多媒體資訊處理組)
文字的語義空間:如下圖中的左半部分所示,輸入文字,經過CNN和LSTM後得到文字模態的特徵,然後聯合影象的CNN特徵進行跨模態學習,獲得一個聯合特徵。
影象的語義空間:如下圖中的右半部分所示,輸入影象,經過CNN和LSTM後得到影象模態的特徵,然後聯合文字的CNN特徵進行跨模態學習,獲得一個聯合特徵。
動態融合:最後把這兩個聯合特徵進行動態融合,得到一個跨模態的相似度。有了這個相似度就可以根據這個相似度來提升跨模態檢索的表現。
個人思考:第一個比較大的啟發就是對稱的設計,左邊是文字語義空間結合影象特徵,右邊是影象語義空間結合文字特徵,一個對稱的結構通常會帶來美感。第二個啟發是考慮多模態,複雜現實中很多工是多模態的,不一定是文字和影象的跨模態的,可以是各種多模態,比如前面那篇門混合結構就是考慮了現實中樣本往往不是單模態的高斯分佈,而是複雜的多模態分佈,所以假設樣本服從多元高斯分佈,然後提出了帶引數的二階池化。

(5)Learning Multi-view Representation with LSTM for 3D Shape Recognition and Retrieval(2018 TMM,國防科技大)
做了啥:如下圖所示,模型輸入多個角度的影象給不同CNN,後面接不同的HighWay,LSTM,然後序列投票,全連線層,分類。
個人思考:emm貌似看不出特別新穎的點子,可能是把這個結構用在了3D上的識別,然後實驗效果好,論文中的分析寫的好。