1. 程式人生 > >Visual Question Answering in Tensorflow實戰

Visual Question Answering in Tensorflow實戰

主要參考:https://github.com/paarthneekhara/neural-vqa-tensorflow
論文地址:https://arxiv.org/abs/1505.02074

專案百度網盤地址:https://pan.baidu.com/s/1d47Hxu5Xl71UYniKWPDfpQ
開始爬坑:
首先伺服器是linux,但是不能連線網路。因此只能在windows下進行。
按照步驟,首先就是獲取資料。

坑1:Download the MSCOCO train+val images and VQA data using Data/download_data.sh. Extract all the downloaded zip files inside the Data folder.
可以看到,download_data.sh為空。解決辦法: 另一個Torch implementation of neural-VQA版本中有download_data.sh。打開復制連結,進行下載。

坑2:
Extract the fc-7 image features using:
python extract_fc7.py –split=train
python extract_fc7.py –split=val
因為我在windows下的python版本是3。需要修改原始碼。

坑3:
data_loader.py:
if name == “main“:
prepare_training_data()
增加上面程式碼,執行資料預處理程式。
extract_fc7.py:
all_data = data_loader.load_questions_answers(args)
->all_data = data_loader.load_questions_answers()
predict.py:
vocab_data = data_loader.get_question_answer_vocab(args.data_dir)
->vocab_data = data_loader.get_question_answer_vocab()
predict.py:parser.add_argument(‘–model_path’, type=str, default = ‘Data/Models/model133.ckpt’,目錄要寫死,不然讀取模型檔案失敗。
evaluate.py:parser.add_argument(‘–model_path’, type=str, default = ‘Data/Models/model133.ckpt’目錄要寫死,不然讀取模型檔案失敗。

python predict.py –image_path=”Data/test/8.jpg” –question=”What are they doing?”