show-attend-and-tell-tensorflow原始碼解讀：preprocess.py

阿新 • • 發佈：2021-07-16

from scipy import ndimage
# scipy.ndimage: Multi-dimentional image processing(多維影象處理包） 更強大的影象處理庫包括：opencv, scikit-image等
from collections import Counter
# collections模組包含多種集合類，Counter是其中之一，它是一個簡單的計數器，統計字元出現的個數，是dict的一個子類
from core.vggnet import Vgg19
# core.vggnet.Vgg19類從imagenet-vgg-verydeep-19.mat中獲取了預訓練引數，用這些預訓練引數構造了vgg19網路的計算模型。 

from core.utils import *
import tensorflow as tf
import numpy as np
import pandas as pd
import hickle
# hickle與pickle都是常用的序列化/反序列化模組，用來儲存程式執行結果或者載入包含程式所需資訊的檔案。
import os
# os模組用於程式與作業系統互動，訪問資料夾
import json
# json和hickle，pickle作用類似

以上是preprocess.py的import資訊。因為該python檔案包含多個python函式，內容較多，需要理清頭緒，找出程式入口，程式入口即main()函式。

def main():
    # batch size for extracting feature vectors from vggnet
    batch_size = 100    # 一次提取100幅影象的feature vectors
    # maximum length of caption (number of word). if caption is longer than max_length, deleted.
    max_length = 15    # 標籤語句最長15個單詞，超過15個單詞的語句刪掉
    # if word occurs less than word_count_threshold in training dataset, the word index is special unknown token. 

    word_count_threshold = 1 # 如果訓練集中某個單詞出現次數小於1，那就設為null（一個特殊的token）
    # vgg model path
    vgg_model_path = './data/imagenet-vgg-verydeep-19.mat'
    
    # about 80000 images and 400000 captions for train dataset
    train_dataset = _process_caption_data(caption_file='data/annotations/captions_train2014.json, image_dir='image/train2014_resized', max_length=max_length)
    # 有影象資料夾image_dir，有包含標籤語句和影象與標籤的連線資訊的caption_file，這個函式（後面詳細介紹）事實上構建了訓練集變數，另外一點：./data/ == data/

    # about 40000 images and 200000 captions
    val_dataset = _process_caption_data(caption_file='data/annotations/captions_val2014.json', image_dir='image/val_resized', max_length=max_length)
    # 這裡構建了驗證集變數

    # about 4000 images and 20000 captions for val / test dataset
    val_cutoff = int(0.1 * len(val_dataset))
    test_cutoff = int(0.2 * len(val_dataset))
    print('Finished processing caption data')

    save_pickle(train_dataset, 'data/train/train.annotations.pkl')
    save_pickle(val_dataset[:val_cutoff], 'data/val/val.annotations.pkl')
    save_pickle(val_dataset[val_cutoff:test_cutoff].reset_index(drop=True), 'data/test/test.annotations.pkl')
    """
        這裡save_pickle()函式與pickle模組有關，pickle模組儲存的檔案字尾名都是pkl，save_pickle()是對pickle.dump()函式的擴充套件，它的定義在core.utils模組中(前面匯入模組中已經寫了)。
        reset_index()方法的全稱是pandas.DataFrame.reset_index()，用來防止原索引變成資料列。可見_process_caption_data返回的結果是pd.DataFrame類的例項，但疑點是為什麼前兩個沒用該方法？
        從這兒開始，對上面得到的train, val, test三個檔案，逐個執行相關操作。
    """
    
    for split in ['train', 'val', 'test']:
        annotations = load_pickle('./data/%s/%s.annotations.pkl' % (split, split))
        # load_pickle()與save_pickle()情形相似，都位於core.utils模組中(core/utils.py檔案中)，都是對pickle模組中的函式進行擴充套件，不同之處在於load_pickle()擴充套件的是pickle.load()
        
        if split == 'train':
            word_to_idx = _build_vocab(annotations=annotations, threshold=word_count_threshold)
            # 在training階段，製作詞彙表，方便後續的one-hot詞編碼和詞嵌入。
            save_pickle(word_to_idx, '.data/%s/word_to_idx.pkl' % split)    # 把詞彙表儲存起來
        captions = _build_caption_vector(annotations=annotations, word_to_idx=word_to_idx, max_length=max_length)
        # 製作好詞彙表後，對整個句子進行編碼
        save_pickle(captions, './data/%s/%s.captions.pkl' % (split, split))    # 對句子編碼向量儲存起來。
        file_names, id_to_idx = _build_file_names(annotations)
        save_pickle(file_names, './data/%s/%s.file.names.pkl' % (split, split))
        image_idxs = _build_image_idxs(annotations, id_to_idx)
        save_pickle(image_idxs, './data/%s/%s.image.idxs.pkl' % (split, split))
        """這四句暫時不清楚具體幹了啥，但應該是提取了圖片檔名，圖片id，標籤語句，標籤編碼之間的關係"""
        # prepare reference captions to compute bleu scores later
        image_ids = {}
        feature_to_captions = {}
        i = -1
        for caption, image_id in zip(annotations['caption'], annotations['image_id']):
            if not image_id in image_ids:
                image_ids[image_id] = 0
                i += 1
                feature_to_captions[i] = []
            feature_to_captions[i].append(caption.lower() + ' .')
        save_pickle(feature_to_captions, './data/%s/%s.references.pkl' % (split, split))
        print("finished building %s caption dataset" % split)

    # extract conv5_3 feature vectors
    vggnet = Vgg19(vgg_model_path)
    # 載入預訓練的模型引數
    vggnet.build()
    # 載入後構建vgg19模型，得到完整的計算流程
    with tf.Session() as sess:
        tf.initialize_all_variables().run()
        for split in ['train', 'val', 'test']:
            anno_path = './data/%s/%s.annotations.pkl' % (split, split)
            save_path = './data/%s/%s.features.hkl' % (split, split)
            annotations = load_pickle(anno_path)
            image_path = list(annotations['file_name'].unique())
            n_example = len(image_path)
            
            all_feats = np.ndarray([n_example, 196, 512], dtype=np.float32)
            
            for start, end in zip(range(0, n_example, batch_size), range(batch_size, n_example+batch_size, batch_size)):
                image_batch_file = image_path[staart:end]
                image_batch = np.array(map(lambda x: ndimage.imread(x, mode='RGB'), image_batch_file)).astype(np.float32)
                feats = sess.run(vggnet.features, feed_dict={vggnet.images:image_batch})
                all_feats[start:end, :] = feats
                print("Processed %d %s features.." % (end, split))
            
            # use hickle to save huge feature vectors
            hickle.dump(all_feats, save_path)
            print("Saved %s.." % (save_path))

show-attend-and-tell-tensorflow原始碼解讀：preprocess.py

from scipy import ndimage # scipy.ndimage: Multi-dimentional image processing(多維影象處理包）更強大的影象處理庫包括：opencv, scikit-image等

mybatis原始碼解讀：transaction包（事務管理功能）

技術標籤：mybaits原始碼mybatis原始碼歡迎關注本人公眾號： mybatis的transaction包是負責進行事務管理的包，該包內包含2個子包：jdbc子包中包含基於jdbc進行事務管理的類，managed子包中包含基於容器進行事務

mybatis原始碼解讀：cursor包

技術標籤：mybaits原始碼mybatis原始碼歡迎關注本人公眾號： 1.遊標的使用在使用mybatis進行資料庫查詢時，經常會查詢到大量的結果。遊標可以解決處理大量資料時不是一次讀入整個結果集，而是逐一讀入和處

Mybatis原始碼解讀：executor包（主鍵自增功能）

技術標籤：mybaits原始碼mybatis原始碼歡迎關注本人公眾號： executor執行器包作為mybatis的核心將其他各個包凝聚在一起，會呼叫配置解析包解析出配置資訊，會依賴基礎包提供的基礎功能，最終executor包將所

Mybatis原始碼解讀：executor包（懶載入功能）

技術標籤：mybaits原始碼mybatis原始碼歡迎關注本人公眾號： 1.懶載入功能的使用

mybatis原始碼解讀：executor包（引數處理功能）

技術標籤：mybaits原始碼mybatis 歡迎關注本人公眾號： sql語句中的引數賦值是有由executor包中的parameter子包完成的。

mybatis原始碼解讀：executor包（結果處理功能）

技術標籤：mybaits原始碼mybatis 歡迎關注本人公眾號： mybatis查詢結果的處理需要完成的步驟有：

mybatis原始碼解讀：executor包（執行器功能）

技術標籤：mybaits原始碼mybatis executor包中的各個子包提供的功能，最終這些功能都由Executor介面及其實現類共同對外提供服務。

mybatis原始碼解讀：executor包（錯誤上下文）

技術標籤：mybaits原始碼mybatis ErrorContext類是一個錯誤上下文，能夠提前將一些背景資訊儲存下來。這樣在真正發生錯誤時，便能將這些背景資訊提供處理，進而給我們的錯誤排查帶來便利。

mybatis原始碼解讀：session包

技術標籤：mybaits原始碼mybatis session包是整個mybatis應用的對外介面包。 1.SqlSession及其相關類

【超硬核】JVM原始碼解讀：Java方法main在虛擬機器上解釋執行

本文由HeapDump效能社群首席講師鳩摩授權整理髮布第1篇-關於Java虛擬機器HotSpot，開篇說的簡單點

django原始碼解讀python manage.py shell

當在進入 python 環境中匯入 django 模組類我們看一下哪裡的問題，導致報錯。 ENVIRONMENT_VARIABLE = \"DJANGO_SETTINGS_MODULE\"

Java SE基礎鞏固（一）：基本型別的包裝類原始碼解讀

Java中變數型別可分為兩類：基本型別和引用型別。基本型別有8種，分別是short，int，long，byte，char，float，double，boolean，同時也有8種引用型別作為其包裝類，例如Integer，Double等。本文要討論的就是這些基本

Linux核心網路協議棧：udp資料包傳送（原始碼解讀）

技術標籤：【Linux核心】《監視和調整Linux網路協議棧：接收資料》《監控和調整Linux網路協議棧的圖解指南：接收資料》

openmp原始碼_騰訊TNN推理引擎原始碼解讀系列：CPU省電策略

技術標籤：openmp原始碼 TNN：由騰訊優圖實驗室打造，移動端高效能、輕量級推理框架，同時擁有跨平臺、高效能、模型壓縮、程式碼裁剪等眾多突出優勢。TNN框架在原有Rapidnet、ncnn框架的基礎上進一步加強了移動

mybatis入門實戰&原始碼解讀(2)：mybatis核心應用配置與原理解析

技術標籤：mybatis入門實戰&原始碼 mybatis的一、二級快取大多數的持久層框架一樣，MyBatis也提供了快取測了，通過快取測了來減少資料庫的查詢次數，從而提高效能。

httprunner3原始碼解讀（一）：簡介+使用介紹

一、簡介 1、httprunner是什麼？ HttpRunner 是一款面向 HTTP(S) 協議的通用測試框架，只需編寫維護一份 pytest/YAML/JSON 指令碼，即可實現自動化測試、效能測試、線上監控、持續整合等多種測試需求。

httprunner3原始碼解讀（二）：目錄結構

上一篇簡單介紹了httprunner的主要特徵及簡單使用，從本篇開始陸續解讀httprunner3原始碼。

linux原始碼解讀（一）：程序的建立、排程和銷燬

　　不論是做正向開發，還是逆向破解，作業系統、編譯原理、資料結構和演算法、計算機組成原理、計算機網路、密碼學等都是非常核心和關鍵的課程。為了便於理解作業系統原理，這裡從linux 0.11開始解讀重要和核心的程

Echarts 原始碼解讀一：zrender原始碼分析1var zr = zrender.init(document.getElementById(‘main‘))；

2021SC@SDUSC 因為Echarts是基於zrender進行實現的，所以解讀echarts原始碼前，首先要對zrender有基本的瞭解。

show-attend-and-tell-tensorflow原始碼解讀：preprocess.py

相關推薦