VQA聊天機器人課程筆記
阿新 • • 發佈:2020-10-16
VQA用來替代圖靈測試測試人工智慧的程度:
給定一些圖片,及關於圖片的一些問題,智慧系統給出答案判斷系統的智慧程度。
VQA模型的思路:
第一步,生成答案(做成文字的分類問題。)
將句子裡常見的前20%的答案作為所有答案,通過softmax進行問題判斷,差不多可以得到80%左右的問題的正確答案。也就說準確率能達到80%。
第二步,處理資料來源(圖片)(文字)等
第三步,將圖片向量與文字向量拼接起來,然後輸入一個分類器模型(svm,CNN等都行)與對應的答案進行訓練得到模型
預處理:
訓練過程中每10次儲存一下訓練的權重係數。
json是儲存的模型的構架。
資料處理,將問題,圖片,答案轉換成批量的矩陣形式 。
訓練完成後儲存模型。
對於問題模型的訓練這裡用了兩種方法:一是MLP,即全連線人工神經網路,第二種是LSTM。
用LSTM模型訓練問題的向量拼接好的圖片的向量組成一維向量做X,與對應的問題標籤Y(ONEHOT)編碼。
加上LSTM模型
生成最後的模型,然後進行儲存。
模型輸入輸出資料:
載入訓練的模型
python匯入caffe檔案,讀入模型