lesson7-圖像描述 -小象cv
阿新 • • 發佈:2018-04-17
IT rnn 相對 黑白 bsp rom 遞歸 oid 映射
樸素rcnn - 梯度消失嚴重
LSTM長短時記憶模型,有效捕捉長時記憶
包含四個神經元組:
一個記憶神經元
三個控制門神經元:輸入、忘記、輸出
註意:輸入調制門、輸出調制門
3個輸入:前一時刻的隱藏狀態h、前一時刻的記憶狀態c、當前時刻的輸入x
2個輸出:當前時刻的隱含狀態h,當前時刻的記憶狀態c
i、f、o、gt對應的都是xt、ht-1的矩陣乘和偏置
以7個時間片為例-黑白:輸入們、輸出們關閉時不輸出當前時刻、忘卻門打開時可以向下一個時刻傳遞
記憶狀態cell state:記憶的核心
控制門:配有sigmoid函數的神經元,【0,1】
忘記門:sigmoid激活
tanh激活:壓縮記憶狀態【-1,1】
記憶狀態更新:1)選擇性移除前一時刻的舊信息~記憶狀態2)選擇性添加當前時刻的新信息~調制輸入
Lstm的變種:
peephole:窺視,ft和it加入Ct-1
coupled耦合的忘記-輸入門:Ct
GRU門限遞歸單元:新增重置門和更新門,合並輸入們和忘記們,合並記憶狀態和隱藏狀態
lstm&gru:後者更適合小規模數據,參數少、擬合能力相對弱
image captioning圖說模型:
模型策略:
傳統的分段處理:
1)圖片內容-》文本標簽-》描述語句
2)將圖片和文本映射到同一共享空間下,翻譯圖片特征-》語言描述 ~黑箱嚴重
state-of-the-art模型:
dnn框架:cnn~圖片理解~vgg、resnet
rnn~語言理解~multimodal-rnn、lstm~一個就夠、gru~一個就夠
特殊功能模塊~attention
show and tell模型:
from google,cnn+lstm
lesson7-圖像描述 -小象cv