1. 程式人生 > >Harmonic Networks 筆記

Harmonic Networks 筆記

變換等變性 (Transformation Equivariance)

直接將輸入變換與特徵向量變換相關聯的所追求的屬性稱為等變性。換另外一種說法,就是輸入圖片變換之後,feature map產生相應的變換,比如圖片產生平移,feature map也發生了平移,圖片旋轉θ\theta度,feature map同樣旋轉θ\theta度,這種屬性就叫做變換等變性。

等變性 vs 不變性 不變性不同於等變性,不變性是指特徵向量在輸入的所有變換下保持不變。比如無論輸入圖片怎麼平移,輸出的feature map都不變。不變性是等變性的一種特殊情況。

等變性可以保留變換後圖片的大量細節特徵,減少變換的損失,這些豐富的特徵沿著網路傳遞下去,提高模型的效能。對於分類任務,不變性比較重要,但是對於定位任務、語義分割任務,等變性更加重要。

在計算機視覺任務中常考慮的兩種等變性分別是平移等變性和旋轉等變性。

平移等變性 (Translation Equivariance)

平移等變性的理解如下圖所示 translation equivariance

輸入圖片II經過平移變換π\pi得到另外一張圖片π[I]\pi [I]II通過CNN後得到feature map f(I)f(I),feature map f(I)f(I)同樣經過相應的平移變換ψ\psi得到另一個feature map ψ[f(I)]\psi [f(I)]。平移等變性體現在f(π[I])=ψ[f(I)]f(\pi [I]) = \psi[f(I)]

[f(I)]。注意兩個平移變換π\piψ\psi是不相等的,因為卷積池化導致的空間上的不同。如果ψ\psi是自身對映函式,那麼f(π[I])=f(I)f(\pi [I]) = f(I),這就是平移不變性。

因為卷積層的滑動窗體卷積的操作,平移等變性是CNN固有的屬性。而旋轉等變性卻不是CNN固有的屬性。

旋轉等變性 (Rotation Equivariance)

旋轉等變性的理解如下圖所示 rotataion equivariance

和平移等變性一樣,旋轉等變性體現在f(π[F])=ψ[f(F)]f(\pi [F]) = \psi[f(F)]θ\theta是旋轉角度。

為了讓CNN有旋轉等變性,有許多方法已經被提出來了。這些方法分為:編碼全域性旋轉等變性和編碼區域性旋轉等變性(patch-wise equivariance),這些方法或者旋轉過濾器或者旋轉feature map。

編碼全域性旋轉等變性的方法是這樣的,把訓練圖片旋轉不同的角度,從而使卷積網路具有全域性旋轉等變性。但是這種方法得到的結果區域性區域還是變化的,如下圖所示: Regular CNN

右下圖從旋轉得到的feature map中取出人臉部分並擺正,可以看到得到的feature map區域性細節是不斷產生變換的。理想的旋轉等變性應該是這樣的,變換的只是旋轉角度,其他內容相對保持不變,因此理想的效果是右下圖的人臉保持不變。

上述的方法也是旋轉feature map的方法。編碼區域性旋轉等變性的方法是旋轉過濾器的方法,以捕獲區域性的旋轉等變性。

這些方法通過旋轉feature map或過濾器來獲取旋轉等變性,但是取的旋轉角度是離散的,不是連續的,為了取得更好的效果,就要嘗試更多的離散旋轉角度。Harmonic Networks,或者說H-Nets不同於上面的方法,它採用了steerable filters,通過限制過濾器在圓形諧波族(circular harmonics family)中,把區域性360°旋轉等變性融入到模型中。Steerable filters指具有可操作性的過濾器,它可以在任何旋轉處被構造為基礎過濾器的有限線性組合。Steerable filters可以去掉對應不同旋轉角度的過濾器,減少了網路的引數,因此,H-Nets可以被看作是使用無限旋轉的過濾器的副本。

H-Nets的旋轉等變性效果是 hnet

CNN和H-Nets二者的等變性比較 cnn and hnet

通過對比可知H-Nets的旋轉等變性效果很好。

Prior Knowledge

首先了解讀懂這篇論文的先驗知識。

Complex number1

複數的一般表示為:a+bia+bi,在複數平面中,橫軸表示實部,縱軸表示虛部,座標為(a,b)(a, b)。複數還有其他表示形式。

極座標表示形式

就是把複數平面轉變成極座標系。在極座標中,複數z的絕對值或模r=z>0r=\left | z \right | > 0,z的夾角φ=argz\varphi = argz,座標為(r,φ)(r, \varphi)

從極座標形式到笛卡爾座標形式的轉換a=rcosφ,b=rsinφa=r \cos \varphi, b=r \sin \varphi,因此z在極座標形式的符號是z=r(cosφ+isinφ)z=r(\cos\varphi + i\sin \varphi)

根據尤拉公式eix=cosx+isinxe^{ix} = \cos x+ i \sin x,z又可以寫成z=reiφz=re^{i\varphi},這叫做“指數形式”。

矩陣表示式

複數a+bia+bi表示為矩陣表達形式: [abba]=r[cosφsinφsinφcosφ]=rexp(φ[0110]) \begin{bmatrix} a & -b \\ b & a \end{bmatrix} = r \begin{bmatrix} \cos \varphi & -\sin \varphi \\ \sin \varphi & \cos \varphi \end{bmatrix} = r \exp \left( \varphi \begin{bmatrix} 0 & -1 \\ 1 & 0 \end{bmatrix} \right )

複數運算

複數加法 在複平面中,兩個點A和B的和是點X = A + B使得頂點0, A, B的三角形和頂點A, B, X的三角形是全等的。

複數加法

A=a+bi,B=c+diA = a + bi, B = c + di,則X=(a+c)+i(b+d)X = (a+c) + i(b + d)

複數乘法 在複平面中,兩個點A和B的積是點X = AB使得頂點0, 1, A的三角形和頂點0, B, X的三角形是相似的。 複數乘法

A=a+bi,B=c+diA = a + bi, B = c + di,則X=(acbd)+i(ad+bc)X = (ac-bd) + i(ad + bc)。考慮極座標形式,設A=rAeiψA,A=rBeiψBA=r_A e^{i \psi_A}, A=r_B e^{i \psi_B},則X=rArBei(ψA+ψB)X = r_A r_B e^{i(\psi_A + \psi_B)},從圖可以看到X的角座標等於A的角座標ψA\psi_A加B的角座標ψB\psi_B

複數共軛 點A的共軛複數是點X = A*使得頂點0, 1, A的三角形和頂點0, 1, X的三角形相互是映象。 複數共軛

A=a+biA = a + bi,則X=abiX = a - bi

複數在訊號分析的應用

訊號分析和其他領域使用複數可以方便的表示週期訊號。模值z|z|表示訊號的幅度,輻角argz\arg z表示給定頻率的正玄波的相位。利用傅立葉變換可將實訊號表示成一系列周期函式的和。這些周期函式通常用形式如下的複函式的實部表示: f(t)=zeiwt=rei(wt+φ) f(t) = ze^{iwt} = r e^{i(wt+\varphi)} 其中w對應角頻率,複數z包含了幅度和相位的資訊。

Circular harmonics

圓諧波(Circular harmonics)是球諧波(Spherical harmonics)的在二維空間上的版本。 Spherical harmonics2: 球形諧波可以在3d中用於將照明環境投射到一小組係數中,這些係數緊湊地表示來自所有方向的射入光。 Circular harmonics2: 圓諧波就像球諧波的小兄弟,可以用來有效地編碼基於單個角度而不是兩個角度變化的值。就像球諧波一樣,任何角度變換的有趣屬性都可以用這種方法表示。

網上關於Circular Harmonics的介紹資訊比較少,從YouTube3上看到了一個有意思的關於Circular Harmonics視訊,我下載下來放在這裡

上面的公式是 Φ(φ)=ei(mφ+ϕ0)\varPhi(\varphi) = e ^{i(m\varphi + \phi_0)} 其中m是旋轉階(rotation order),ϕ0\phi_0是相位,它等價於複數z,模z=1|z|=1,幅角argz=mφ+ϕ0argz=m\varphi + \phi_0。上面的影象是這樣畫出來的(個人理解),固定m和ϕ0\phi_0,在極座標中,夾角為φ[0,2π)\varphi \in [0, 2\pi),半徑為1cos(mφ+ϕ0)1*\cos (m\varphi + \phi_0),當m=0m=0時,隨著ϕ0\phi_0的值增大,半徑由1變為-1,再變為1,如此迴圈,紅色的曲線表示負值。當m1m \ge 1時,半徑同時受到mφm\varphiϕ0\phi_0,當ϕ0=0\phi_0=0或者固定時,整個曲線是一個2葉草形狀,隨著ϕ0\phi_0增大,整個曲線圖形逆時針旋轉。當m變大後,就會出現4葉草,8葉草等形狀。rotation order為m,圖形為m2m^2葉草。

Rotation order的一種說法是,把圖形旋轉360,新圖形與原圖形重合的次數是rotation order。先不考慮m=0的情況,當m=1時,把上面的曲線圖形旋轉360度,重合了1次(注意曲線顏色),當m=2時,重合了2次,等等。考慮固定m和ϕ0\phi_0,一個點A,距離原點cos(mφ+ϕ0)cos(m\varphi+\phi_0),繞著原點旋轉,與極軸的夾角是φ\varphi,當m=1時,A繞著原點旋轉360度回到原來位置的次數是1,m=2時,A繞著原點旋轉360度回到原來位置的次數是2。Rotation order還可以理解成A的旋轉角速度,或者旋轉頻率,m越大,A繞著原點旋轉的速度越大,A繞著原點旋轉360度回到原來位置的次數也越多。

說了那麼多,可能對理解Harmonic networks有用,也可能沒用。說了這麼多也因為上面這個視訊展示了Circular Harmonics的美妙。

Harmonic Networks

複數圓形諧波(circular harmonics)過濾器

H-Nets使用複數圓形諧波過濾器,它的形式是 Wm(r,ϕ;R,β)=R(r)ei(mϕ+β) \mathbf{W}_m (r,\phi;\mathbf{R},\beta) = R(r)e^{i(m \phi + \beta)}

相關推薦

Harmonic Networks 筆記

變換等變性 (Transformation Equivariance) 直接將輸入變換與特徵向量變換相關聯的所追求的屬性稱為等變性。換另外一種說法,就是輸入圖片變換之後,feature map產生相應的變換,比如圖片產生平移,feature map也發生了平移

Protein Secondary Structure Prediction Using Cascaded Convolutional and Recurrent Neural Networks筆記

利用級聯卷積和遞迴神經網路預測蛋白質二級結構  Abstract        蛋白質二級結構預測是生物資訊學中的一個重要問題。受近期深度神經網路成功的啟發,在本文中,我們提出了一種端到端深度網路,可以從整合的區域性和全域性上下文特徵預測蛋白質二級結構。我們的深層架構

Visualizing and Understanding Convolutional Networks筆記

Contents 本文為20141024週報。 在所有深度網路中,卷積神經網和影象處理最為密切相關,卷積網路在很多圖片分類競賽中都取得了很好的效果,但卷積網調參過程很不直觀,很多時候都是碰運氣。為此,卷積網路發明者Yann LeCun的得意門生Matthew Ze

Neural Networks and Deep Learning學習筆記ch1 - 神經網絡

1.4 true ole 輸出 使用 .org ptr easy isp 近期開始看一些深度學習的資料。想學習一下深度學習的基礎知識。找到了一個比較好的tutorial,Neural Networks and Deep Learning,認真看完了之後覺

論文筆記-Sequence to Sequence Learning with Neural Networks

map tran between work down all 9.png ever onf 大體思想和RNN encoder-decoder是一樣的,只是用來LSTM來實現。 paper提到三個important point: 1)encoder和decoder的LSTM

論文筆記-Personal Recommendation Using Deep Recurrent Neural Networks in NetEase

use clas max onf 一位 url base 輸入 ont 思路:利用RNN對用戶瀏覽順序建模,利用FNN模擬CF,兩個網絡聯合學習 RNN網絡結構: 輸出層的state表示用戶瀏覽的某一頁面,可以看做是一個one-hot表示,state0到3是依次瀏覽的

CS231n筆記 Lecture 10, Recurrent Neural Networks

provided per last bin BE ner karp targe 結構 Recaption on CNN Architecture Although Serena is very beautiful, Justin is a better lecturer.

[CVPR 2016] Weakly Supervised Deep Detection Networks論文筆記

del found score feature 圖片 http spl span 根據 p.p1 { margin: 0.0px 0.0px 0.0px 0.0px; font: 13.0px "Helvetica Neue"; color: #323333 } p.p2

[CVPR2015] Is object localization for free? – Weakly-supervised learning with convolutional neural networks論文筆記

sed pooling was 技術分享 sco 評測 5.0 ict highest p.p1 { margin: 0.0px 0.0px 0.0px 0.0px; font: 15.0px "Helvetica Neue"; color: #323333 } p.p2

A Beginner's Guide To Understanding Convolutional Neural Networks Part One 筆記

不同 there level cto all guid line feature 函數 原文鏈接:https://adeshpande3.github.io/adeshpande3.github.io/A-Beginner‘s-Guide-To-Understanding-

FCN筆記(Fully Convolutional Networks for Semantic Segmentation)

width height training 註意 die str 指標 his repl FCN筆記(Fully Convolutional Networks for Semantic Segmentation) (1)FCN做的主要操作 (a)將之前分類網絡的全連接

論文筆記--PCN:Real-Time Rotation-Invariant Face Detection with Progressive Calibration Networks

.com 角度 ati 分享圖片 直接 算法 二級 使用 計算 測試demo:https://github.com/Jack-CV/PCN 關鍵詞:rotation-invariant face detection, rotation-in-plane, coarse-t

CS231n筆記 Lecture 5 Convolutional Neural Networks

ace 需要 但是 caption apt continue vnet 學習 疑惑 一些ConvNets的應用 Face recognition 輸入人臉,推測是誰 Video classfication Recognition 識別身體的部位, 醫學圖像, 星空, 標誌

閱讀筆記:ImageNet Classification with Deep Convolutional Neural Networks

時間 ica gpu ati 做了 alexnet 小數 而且 響應 概要: 本文中的Alexnet神經網絡在LSVRC-2010圖像分類比賽中得到了第一名和第五名,將120萬高分辨率的圖像分到1000不同的類別中,分類結果比以往的神經網絡的分類都要好。為了訓練更快,使用了

論文筆記 Locality-Sensitive Deconvolution Networks with Gated Fusion for RGB-D Indoor Semantic Segmentation

extract pear rain bsp ble rgb oge nbsp png 用於RGB-D室內語義分割的具有門控融合的局部敏感反卷積網絡 abstract problem: indoor semantic segmentation using RGB

【DeepLearning學習筆記】Coursera課程《Neural Networks and Deep Learning》——Week1 Introduction to deep learning課堂筆記

決定 如同 樣本 理解 你是 水平 包含 rod spa Coursera課程《Neural Networks and Deep Learning》 deeplearning.ai Week1 Introduction to deep learning What is a

【DeepLearning學習筆記】Coursera課程《Neural Networks and Deep Learning》——Week2 Neural Networks Basics課堂筆記

樣本數目 and 編程 多次 之間 優化 我們 round 符號 Coursera課程《Neural Networks and Deep Learning》 deeplearning.ai Week2 Neural Networks Basics 2.1 Logistic

論文閱讀筆記(六)Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks

采樣 分享 最終 產生 pre 運算 減少 att 我們 作者:Shaoqing Ren, Kaiming He, Ross Girshick, and Jian SunSPPnet、Fast R-CNN等目標檢測算法已經大幅降低了目標檢測網絡的運行時間。可是盡管如此,仍然

論文筆記:Empirical Evaluation of Gated Recurrent Neural Networks on Sequence Modeling

感想 最近深度學習面試的時候,有個面試官問了我LSTM,我一下子傻眼了,確實不怎麼好懂,學LSTM已經有半年的時間了,但是對這個玩意兒卻還不怎麼明白,可能是沒用過它的緣故吧,我找了一篇它和GRU比較的論文,這篇論文沒有從理論上證明哪個模型的好壞,只是從實驗,應用場景的角度發現GRU在一些場景比LST

《Learning both Weights and Connections for Efficient Neural Networks》論文筆記

1. 論文思想 深度神經網路在計算與儲存上都是密集的,這就妨礙了其在嵌入式裝置上的運用。為了解決該問題,便需要對模型進行剪枝。在本文中按照網路量級的排序,使得通過只學習重要的網路連線在不影響精度的情況下減少儲存與計算量。論文中的方法分為三步:首先,使用常規方法訓練模型;使用剪枝策略進