【Tensorflow】文字自編碼器

阿新 • • 發佈：2019-02-20

使用文字序列的word2vec詞向量作為seq2seq模型的輸入和輸出，訓練得到中間層的文字特徵表示，可進一步進行分類任務等，encoder和decoder都使用LSTM。

import tensorflow as tf
import numpy as np
import re
from gensim.models import Word2Vec
import pandas as pd
import matplotlib.pyplot as plt
import time
import warnings
warnings.filterwarnings("ignore")

#匯入Word2vec詞向量模型
model = Word2Vec.load('model/daixia_w2c_char_100.model')

#超引數
num_units = 256
input_size = 100
batch_size = 5
vocab_size = 946

# 讀取詞典,包括病案所有字，還有結束符號EOS
def get_dict():
    f = open('data/char_dict.txt', 'r', encoding='utf-8')
    dict_char = dict()
    dict_id = dict()
    for i in range(0, 946):
        word = f.readline()
        dict_char[re.sub('\n', '', word)] = i
        dict_id[i] = re.sub('\n', '', word)

    return dict_char, dict_id


# 獲取資料,病案的字序列，生成訓練資料的batch
def get_batches(filename, dict_char, batch_size):
    # 文字，分類，對應字典序號，文字長度
    texts = []
    label = []
    targets = []
    length = []
    # 記錄文字資訊及標籤，序號
    data = pd.read_csv(filename, delimiter=',', encoding='utf-8')
    for i in range(data.shape[0]):
        char_list = re.split(' ', data['text'].loc[i])
        texts.append(char_list)
        label.append(data['label'].loc[i])
        target = [dict_char[char] for char in char_list]
        targets.append(target)

    # 記錄每個文字的長度
    for t in texts:
        length.append(len(t))
    length = np.array(length, dtype=np.int32)

    #     #返回整個資料集
    #     return texts,targets

    # batches生成器
    i = 0
    while True:
        yield texts[i:i + batch_size], targets[i:i + batch_size]
        i = i + batch_size
        if i + batch_size > len(texts):
            i = 0

#將string序列轉化為詞向量，格式轉化為time_major
def make_batch(texts, isTargets=False, max_sequence_length=None):
    sequence_lengths = [len(text) for text in texts]
    batch_size = len(texts)
    if max_sequence_length is None:
        max_sequence_length = max(sequence_lengths)
    if isTargets is False:
        inputs_batch_major = np.zeros(shape=[batch_size, max_sequence_length, input_size], dtype=np.float32)
        for i, text in enumerate(texts):
            for j, char in enumerate(text):
                inputs_batch_major[i, j] = model[char]
    else:
        inputs_batch_major = np.zeros(shape=[batch_size, max_sequence_length], dtype=np.int32)
        for i, target in enumerate(texts):
            for j, t in enumerate(target):
                inputs_batch_major[i, j] = t
    inputs_time_major = inputs_batch_major.swapaxes(0, 1)
    return inputs_time_major

#構建訓練計算圖
train_graph = tf.Graph()
with train_graph.as_default():
    encoder_inputs = tf.placeholder(shape=[None, batch_size, input_size], dtype=tf.float32, name='encoder_inputs')
    decoder_inputs = tf.placeholder(shape=[None, batch_size, input_size], dtype=tf.float32, name='decoder_inputs')
    decoder_targets = tf.placeholder(shape=(None, None), dtype=tf.int32, name='decoder_targets')
    #LSTM encoder
    encoder_cell = tf.contrib.rnn.LSTMCell(num_units)
    encoder_outputs, encoder_final_state = tf.nn.dynamic_rnn(
        encoder_cell, encoder_inputs,
        dtype=tf.float32, time_major=True,
    )
    #LSTM decoder
    decoder_cell = tf.contrib.rnn.LSTMCell(num_units)
    decoder_outputs, decoder_final_state = tf.nn.dynamic_rnn(
        decoder_cell, decoder_inputs,
        initial_state=encoder_final_state,
        dtype=tf.float32, time_major=True, scope="plain_decoder",
    )
    #分類層
    decoder_logits = tf.contrib.layers.linear(decoder_outputs, vocab_size)
    decoder_prediction = tf.argmax(decoder_logits, 2)
    stepwise_cross_entropy = tf.nn.softmax_cross_entropy_with_logits(
        labels=tf.one_hot(decoder_targets, depth=vocab_size, dtype=tf.float32),
        logits=decoder_logits,
    )
    #計算精確度
    correct_prediction = tf.equal(decoder_prediction,
                                  tf.argmax(tf.one_hot(decoder_targets, depth=vocab_size, dtype=tf.float32), 2))
    accuracy = tf.reduce_mean(tf.cast(correct_prediction, tf.float32))
    #交叉熵損失
    loss = tf.reduce_mean(stepwise_cross_entropy)
    #優化
    train_op = tf.train.AdamOptimizer().minimize(loss)
    #建立saver儲存模型
    saver = tf.train.Saver()

if __name__ == '__main__':
    # 記錄損失
    loss_track = []
    epochs = 10001
    # 讀取字典
    dict_char, dict_id = get_dict()
    # batch生成器
    gen_batches = get_batches('data/data_char.csv', dict_char, batch_size)
    #開啟會話
    with tf.Session(graph=train_graph) as sess:
        sess.run(tf.global_variables_initializer())
        time_start = time.time()
        for epoch in range(epochs):
            batch = next(gen_batches)
            texts = batch[0]
            targets = batch[1]
            #EOS為句子結束符號，在字典中對應0，decoder輸入以結束符號開始，decoder的targets以結束符號為結尾
            encoder_inputs_ = make_batch(texts)
            decoder_inputs_ = make_batch([['EOS'] + text for text in texts])
            decoder_targets_ = make_batch([target + [0] for target in targets], True, None)

            feed_dict = {encoder_inputs: encoder_inputs_, decoder_inputs: decoder_inputs_,
                         decoder_targets: decoder_targets_,
                         }
            _, l, acc = sess.run([train_op, loss, accuracy], feed_dict)
            loss_track.append(l)
            #展示預測效果
            if epoch == 0 or epoch % 10 == 0:
                print('loss: {}'.format(sess.run(loss, feed_dict)))
                print('acc: {}'.format(sess.run(accuracy, feed_dict)))
                predict_ = sess.run(decoder_prediction, feed_dict)
                for i, (inp, pred) in enumerate(zip(texts, predict_.T)):
                    print('input > {}'.format(inp))
                    print('predicted > {}'.format([dict_id[id] for id in pred]))
                    if i >= 2:
                        break

        time_span = time.time() - time_start
        print('訓練花費了{}'.format(time_span))
        saver.save(sess, 'model/dl/model.ckpt')

    plt.plot(loss_track)
    plt.show()

【Tensorflow】文字自編碼器

使用文字序列的word2vec詞向量作為seq2seq模型的輸入和輸出，訓練得到中間層的文字特徵表示，可進一步進行分類任務等，encoder和decoder都使用LSTM。import tensorflow as tf import numpy as np import re

Tensorflow——去噪自編碼器

TensorFlow實現自編碼器在深度學習中，自編碼器是一種非常有用的無監督學習模型。自編碼器(AutoEncoder)，即可以用自身的高階特徵編碼自己。自編碼器也是一種神經網路，但它的輸入與輸出是一致的。自編碼器的思想就是藉助稀疏編碼，使用稀疏的一些高階

tensorflow學習筆記——自編碼器及多層感知器

1，自編碼器簡介　　傳統機器學習任務很大程度上依賴於好的特徵工程，比如對數值型，日期時間型，種類型等特徵的提取。特徵工程往往是非常耗時耗力的，在影象，語音和視訊中提取到有效的特徵就更難了，工程師必須在這些領域有非常深入的理解，並且使用專業演算法提取這些資料的特徵。深度學習則可以解決人工難以提取有效特徵的問題

【TensorFlow-windows】學習筆記六——變分自編碼器

前言對理論沒興趣的直接看程式碼吧，理論一堆，而且還有點複雜，我自己的描述也不一定準確，但是程式碼就兩三句話搞定了。國際慣例，參考博文理論基礎知識似然函式(引自百度百科) 似然函式是關於統計模型中的引數的函式，

【TensorFlow實戰】用Python實現自編碼器

程式碼： import numpy as np import sklearn.preprocessing as prep import tensorflow as tf from tensorflow.examples.tutorials.mnist impor

【Learning Notes】變分自編碼器（Variational Auto-Encoder，VAE）

近年，隨著有監督學習的低枝果實被採摘的所剩無幾，無監督學習成為了研究熱點。VAE（Variational Auto-Encoder，變分自編碼器）[1,2] 和 GAN（Generative Adversarial Networks）等模型，受到越來越多的關注

【論文閱讀】利用深度自編碼器神經網路預測藥物相似度

論文來源： Prediction of Drug-Likeness Using Deep Autoencoder Neural Networks 摘要由於各種各樣的原因，大多數候選藥物最終不能成為上市藥物。建立可靠的預測候選化合物是否具有藥物相似度對提高藥物的發現

『TensorFlow』單隱藏層自編碼器設計

ase numpy loss 分享 examples sum write 對象 plt 計算圖設計很簡單的實踐，多了個隱藏層沒有上節的高斯噪聲網絡寫法由上節的面向對象改為了函數式編程，其他沒有特別需要註意的，實現如下： import numpy as np

tensorflow學習筆記(三)：實現自編碼器

sea start ear var logs cos soft 編碼 red 黃文堅的tensorflow實戰一書中的第四章，講述了tensorflow實現多層感知機。Hiton早年提出過自編碼器的非監督學習算法，書中的代碼給出了一個隱藏層的神經網絡，本人擴展到了多層，改進

『TensorFlow』讀書筆記_降噪自編碼器

沒有 tutorials oftp transfer 初始化 hot nis gauss ant 『TensorFlow』降噪自編碼器設計之前學習過的代碼，又敲了一遍，新的收獲也還是有的，因為這次註釋寫的比較詳盡，所以再次記錄一下，具體的相關知識查閱之前寫的文章即可（見

7 Recursive AutoEncoder結構遞迴自編碼器(tensorflow)不能呼叫GPU進行計算的問題（非機器配置，而是網路結構的問題）

一、原始碼下載程式碼最初來源於Github：https://github.com/vijayvee/Recursive-neural-networks-TensorFlow，程式碼介紹如下：“This repository contains the implementation of a single h

實戰tensorflow——自編碼器

自編碼器簡介：深度學習提取的是頻繁出現的特徵；特徵是需要不斷抽象的，它從見到的微觀特徵開始，不斷抽象特徵的層級，逐漸網複雜的巨集觀特徵轉變。特徵的稀疏表達：使用少量的基本特徵組合拼裝得到更高層抽象的特徵 Hinton的思路就是先用自編碼器的方法進行無監督的預訓練，提取特徵

基於TensorFlow理解三大降維技術：PCA、t-SNE 和自編碼器

余弦相似度應對新的問題技術編碼 http 壓縮方法在我們開始之前，先看一個問題：如果你要為以下案例選擇一種降維技術，你會怎麽選？ 1. 你的系統可以使用余弦相似度測量距離，但你需要將其可視化，以便不懂技術的董事會成員也能理解，這些人可能甚至從來沒聽說過余弦相

tensorflow實現自編碼器

簡介自編碼器是利用神經網路提取出影象中的高階特徵，同時可以利用高階特徵重構自己如果向原圖中新增噪聲，則可以通過高階特徵的提取，對原始影象進行去噪 tensorflow實戰第四章內容程式碼 import numpy as np import skl

自編碼器及其tensorflow實現

自編碼器理論自編碼器（AutoEncoder）顧名思義，就是可以用自身的高階特徵編碼自己。自編碼器實際上也是一種神經網路，它的輸入和輸入的維度是一樣的。藉助稀疏編碼的思想，目標是使用稀疏的一些高階特徵重新組合來重構自己。早年在關於稀疏編碼（Sparse Coding）的研究中，通過對大

機器學習實驗（十）：基於WiFi fingerprints用自編碼器(Autoencoders)和神經網路(Neural Network)進行定位_1(tensorflow版)

Epoch: 0 Loss: 0.946417506465 Epoch: 1 Loss: 0.872724663348 Epoch: 2 Loss: 0.834939743301 Epoch: 3 Loss: 0.812426232725 Epoch: 4 Loss: 0.79

TensorFlow上實現AutoEncoder自編碼器

一、概述 AutoEncoder大致是一個將資料的高維特徵進行壓縮降維編碼，再經過相反的解碼過程的一種學習方法。學習過程中通過解碼得到的最終結果與原資料進行比較，通過修正權重偏置引數降低損失函式，不斷提高對原資料的復原能力。學習完成後，前半段的編碼過程得到結果即可代表原

稀疏自編碼器tensorflow

自編碼器是一種無監督機器學習演算法，通過計算自編碼的輸出與原輸入的誤差，不斷調節自編碼器的引數，最終訓練出模型。自編碼器可以用於壓縮輸入資訊，提取有用的輸入特徵。如,[1,0,0,0],[0,1,0,0],[0,0,1,0],[0,0,0,1]四位元資訊可以

tensorflow 自編碼器

Autoencoders Autoencoder可以對輸入資料進行無監督的學習，coding得到的結果的維度往往很低，因此自編碼器可以用於資料的降維；自編碼器也可以用於特徵檢測；同時也可以生成許多與訓練資料相似的新資料，這可以被稱為生成模型(generati

TensorFlow實現去噪自編碼器

#去噪的自編碼器 import numpy as np import sklearn.preprocessing as prep import tensorflow as tf from tensorflow.examples.tutorials.mnist import i

【Tensorflow】文字自編碼器

相關推薦