1. 程式人生 > >1. Deep CNN 學習筆記 2.dropout學習

1. Deep CNN 學習筆記 2.dropout學習

  1. Deep Convolutional Neural Networks On Multichannel Time Series

For Human Activity Recognition

2.dropout

問題:模型的引數太多,而訓練樣本又太少——容易出現過擬合

1.dropout

大規模神經網路通病:1.費時 2.過擬合

為了解決過擬合問題,一般會採用ensemble方法,即訓練多個模型做組合,此時,費時就成為一個大問題,不僅訓練起來費時,測試起來多個模型也很費時。 在這裡插入圖片描述

因而,對於一個有N個節點的神經網路,有了dropout後,就可以看做是2n個模型的集合了,但此時要訓練的引數數目卻是不變的,這就解脫了費時的問題。

為什麼dropout能解決過擬合問題:

1.動機論

dropout它能強迫一個神經單元,和隨機挑選出來的其他神經單元共同工作,達到好的效果。消除減弱了神經元節點間的聯合適應性,增強了泛化能力(類比基因的自由組合和無性繁殖)

那就是植物和微生物大多采用無性繁殖,因為他們的生存環境的變化很小,因而不需要太強的適應新環境的能力,所以保留大段大段優秀的基因適應當前環境就足夠了。而高等動物卻不一樣,要準備隨時適應新的環境,因而將基因之間的聯合適應性變成一個一個小的,更能提高生存的概率 在這裡插入圖片描述 在這裡插入圖片描述 在這裡插入圖片描述

                   輸出縮減0<p<1

dropout率的選擇:

經過交叉驗證,隱含節點dropout率等於0.5(P)的時候效果最好,原因是0.5的時候dropout隨機生成的網路結構最多。

dropout也可以被用作一種新增噪聲的方法,直接對input進行操作。輸入層設為更接近1的數。使得輸入變化不會太大(0.8)

訓練過程:

對引數w的訓練進行球形限制(max-normalization),對dropout的訓練非常有用。

球形半徑c是一個需要調整的引數。可以使用驗證集進行引數調優

dropout自己雖然也很牛,但是dropout、max-normalization、large decaying learning rates and high momentum組合起來效果更好,比如max-norm regularization就可以防止大的learning rate導致的引數blow up。

使用pretraining方法也可以幫助dropout訓練引數,在使用dropout時,要將所有引數都乘以1/p。

最天真的做法,把2n個模型都拿來做測試,然後採用某個voting機制平均一下2n個模型的測試結果,得到最終結果,但這種方法在現實中不可行。

能夠通過一次測試得到逼近於原2^n個網路組合起來的預測能力

最後需要得到的模型是完整的,沒有隨機丟棄的測試模型

目的:為了使得dropout layer 下一層的輸入和訓練時具有相同的“意義”和“數量級”

雖然訓練的時候我們使用了dropout, 但是在測試時,我們不使用dropout。然後,把測試時dropout layer的輸出乘以訓練時使用的retaining probability p。

意義在哪裡: 事實上,由於我們在測試時不做任何的引數丟棄,如上面所說,dropout layer 把進來的東西原樣輸出,導致在統計意義下,測試時 每層 dropout layer的輸出比訓練時的輸出多加了【(1 - p)100】% units 的輸出。 即 【p100】% 個units 的和是同訓練時隨機取樣得到的子網路的輸出一致,另【(1 - p)*100】% 的units的和 是本來應該扔掉但是又在測試階段被保留下來的。所以,為了使得dropout layer 下一層的輸入和訓練時具有相同的“意義”和“數量級”,我們要對測試時的偽dropout layer的輸出(即下層的輸入)做 rescale: 乘以一個p,表示最後的sum中只有這麼大的概率,或者這麼多的部分被保留。這樣以來,只要一次測試,將原2^n個子網路的引數全部考慮進來了,並且最後的 rescale 保證了後面一層的輸入仍然符合相應的物理意義和數量級。

Dropout層既可以加在輸入層(引數以P的概率置0),也可以加在輸出層(輸出以P的概率置0)即只有1-P概率的節點在正常訓練,在測試的時候,去掉dropout層,要將相應的結果對應性縮小(輸出*(1-P))。

比如一個神經元的輸出是x,那麼在訓練的時候它有p的概率keep,(1-0)的概率丟棄,那麼它輸出的期望是p x+(1-p) 0=px。因此測試的時候把這個神經元乘以p可以得到同樣的期望 在這裡插入圖片描述

2- DropConnect

在這裡插入圖片描述

在這裡插入圖片描述

CNN:把輸入層到隱藏層的對映叫做特徵對映(feature map)。我們把定義特徵對映的權重叫做共享的權重(shared weights),bias叫做共享的bias(shared bais)。這組weights和bias定義了一個kernel或者filter,一個filter識別一個特徵

池化方法:MAX-POOLING MEAN-POOLING L2-pooling(平方和再開根)

Deep Convolutional Neural Networks On Multichannel Time Series

For Human Activity Recognition

對於HAR來說,由ON-BODY感測器獲得的訊號可以說是對視訊攝像機所獲得的訊號有利的訊號,原因如下:

  1. on-body感測器緩解了環境限制和相機經常遭受的固定設定的限制

2.多體感測器能更準確、更有效地在人體上進行訊號採集;

3.on-body感測器在資訊隱私方面具有優勢,因為它們獲取的訊號是特定於目標的,而攝像機採集的訊號可能是al-so包含了場景中其他非目標物件的資訊

啟發式和依賴式

  1. 在HAR的廣泛使用的特徵包括基礎的反式編碼(例如,小波變換和傅立葉變換的訊號)原始的s- nals (e)的統計。時間序列的均值和方差和符號表示。雖然這些特性在許多時間序列問題中得到了廣泛的應用,但它們是啟發式的,而不是任務依賴的。值得注意的是,HAR的任務也有其自身的挑戰,例如:內部的可變性,類間的相似性,空級的優勢,以及物理活動的複雜性和多樣性。所有這些挑戰都使得開發一種系統的特徵表示ap-proach來有效地描述相對於活動識別任務的訊號的性質是非常可取的。

3為HAR開發一種系統和任務依賴特徵提取方法。雖然可穿戴感測器採集的訊號是時間序列,但它們與其他時間序列(如語音訊號和金融訊號)不同。具體地說,在HAR連續訊號流中只有少數幾個部分與最內部(即人類活動)的概念有關,而占主導地位的不相關部分主要對應於零活動。此外,我們瞭解到人類活動是如何在現實中進行的,我們知道每個活動都是幾個基本的連續運動的組合。通常情況下,人類的活動可以持續幾秒鐘,在一秒鐘內就會涉及到一些基本動作。從感測器訊號的角度來看,基本的連續運動更有可能對應平滑的訊號,而不同的基本連續運動之間的過渡可能會引起訊號值的顯著變化。HAR的這些訊號特徵要求特徵提取方法能夠有效地捕捉基本連續運動的性質,以及基本動作組合的顯著性。

  1. 構建一系列的訊號處理單元的深層架構來進行特徵提取。深層體系結構由多個淺層架構組成,每一個淺層架構都由一組在區域性平穩訊號上的線性/非線性處理單元組成。當所有淺層建築都被級聯時,不同尺度下的訊號的顯著性被捕獲。這種深層架構不僅是將一個大而複雜的問題分解成一系列小問題,更重要的是在不同尺度上對訊號的特定“方差”進行處理。這裡,訊號的“方差”反映了訊號的顯著模式。

  2. 採用滑動視窗策略將時間序列訊號分割為一系列簡訊號

圖1:基於多感測器的人類活動識別問題的CNN架構圖 在這裡插入圖片描述

“c”、“s”、“u”、“o”在層標記的括號中分別表示卷積、子取樣、歸一化和輸出操作。“@”前後的數字是指這一層的feature map和feature map的尺寸。注意,由於空間的限制,池、ReLU和規範化層沒有顯示出來。

圖二 歸一化層:

在這裡插入圖片描述

在這裡插入圖片描述 輸出由softmax控制

1。傳統的CNN在影象/視訊案例中沒有出現圖2所示的統一層,因為影象/視訊訊號被認為來自一個單一的感測器通道。因此,CNN所建議的架構是傳統CNN的一個概括,它通過對多個數據通道進行分析。在CNN中,所有處理單元的引數和連線權值通過一個全域性目標函式(即熵值函式)共同學習,這是一個依賴於所有未知變數的函式。通過所謂的反向傳播演算法(LeCun et al., 1998),可以有效地優化這個全域性目標函式。

2。全域性目標函式與基於ground truth標籤的訓練錯誤以及在CNN最後一層的softmax函式的輸出相關。該函式的變數控制訊號的各種特徵對映。因此,通過優化模型,對特徵學習和分類的兩個任務進行了相互增強,而美國有線電視新聞網(CNN)的學者們對這兩項任務的辨別力更強。

以上論文提出了一種新的人活動識別任務的特徵提取方法。該方法為CNN建立了一個新的深度架構,用於研究多通道時間序列資料。這種深層架構主要利用卷積和匯聚操作來捕獲不同時間尺度下的感測器訊號的顯著模式。所有已識別的顯著模式在多個通道之間系統地統一,最終對映到人類活動的不同類別。提出的方法的關鍵問題是:

1.特徵提取是在任務依賴和非手工製作的方式下形成的;

2.提取特徵具有更強的辨別力,即人類活動的類別;

3.特徵提取和分類統一在一個模型中,使其效能相互增強。

在實驗中,我們證明了所提出的CNN方法優於其他最先進的方法,因此我們認為所提出的方法可以作為一種具有競爭力的工具,對HAR問題進行特徵學習和分類。