1. 程式人生 > >【Python圖像特征的音樂序列生成】深度卷積網絡,以及網絡核心

【Python圖像特征的音樂序列生成】深度卷積網絡,以及網絡核心

img 對比 images 兩個 避免 pytho lam 其中 src

這個項目主要涉及到兩個網絡,其中卷積神經網絡用來提取圖片表達的情緒,提取出一個二維向量。

網絡結構如圖:

技術分享

詞向量采用預訓練的glove模型,d=50,其他信息包括了圖片的“空曠程度”、亮度、對比度等信息,用來更好地描述圖片特征。

對於圖中的卷積神經網絡,需要講解的地方是:卷積核是一個一維卷積核,每一層卷積層之後都連接了池化層,做的是最大值池化,每一層之間有固定的dropout層,最後輸出的向量與我們預先設定的label進行計算,損失函數定義為

\[J(\theta)=-\sum_iy‘_i\log(y_i)+\frac{\lambda}{2}\|\theta\|^2_F\]

式中使用了交叉熵和L2範數避免可能出現的過擬合,在實際訓練中我們將會增減神經網絡的層數,調整相應的超參數。

最後得到的向量我們在LSTM裏進行輸入。

【Python圖像特征的音樂序列生成】深度卷積網絡,以及網絡核心