word2vec TensorFlow 註釋版本

阿新 • • 發佈：2018-11-19

import tensorflow as tf
import numpy as np
import time
import random
from collections import Counter
import os
os.environ['TF_CPP_MIN_LOG_LEVEL'] = '2'

import matplotlib.pyplot as plt
from sklearn.manifold import TSNE

#read data
with open ('./data/text8') as f:
    text = f.read()


def preprocess 
(text, freq=5):

    '''

    :param text:
    :param freq:
    :return:
    '''

    text = text.lower()
    text = text.replace('.', ' <PERIOD> ')
    text = text.replace(',', ' <COMMA> ')
    text = text.replace('"', ' <QUOTATION_MARK> ')
    text = text.replace(';', ' <SEMICOLON> ' 
)
    text = text.replace('!', ' <EXCLAMATION_MARK> ')
    text = text.replace('?', ' <QUESTION_MARK> ')
    text = text.replace('(', ' <LEFT_PAREN> ')
    text = text.replace(')', ' <RIGHT_PAREN> ')
    text = text.replace('--', ' <HYPHENS> ')
    text = text.replace('?' 
, ' <QUESTION_MARK> ')
    text = text.replace(':', ' <COLON> ')
    words = text.split()

    #刪除低頻詞
    word_counts = Counter(words)
    trimmed_words = [word for  word in words if word_counts[word] > freq]

    return trimmed_words


#清洗並分詞
words = preprocess(text)
print(words[:10])

#構建對映表
vocab = set(words)
vocab_to_id = {w: c for c, w in enumerate(vocab)}
id_to_vocab = {c: w for c, w in enumerate(vocab)}


##對原文字進行vocab到id 的轉換

id_words = [vocab_to_id[w] for w in words]


##取樣和論文中的描述的不同
#這裡用 p (wi) = 1-sqrt(t/freq(wi))
#這個公式表示的是詞wi唄刪除的概率是p(wi) 其中t是超引數

t = 1e-5
threshold = 0.8 #刪除概率閾值

#統計單詞出現頻次
id_word_counts = Counter(id_words)
total_count = len(id_words)

#計算單詞陪頻率
word_freqs = {w: c/total_count for w, c in id_word_counts.items()}

#計算刪除概率
drop_prob = {w : 1 - np.sqrt(t/word_freqs[w]) for w in id_word_counts}

#對單詞采樣
train_words = [w for w in id_words if drop_prob[w] < threshold]

print(len(train_words))

##構造batch

def get_targets(words, idx, window_size = 2):
    '''

    :param words:
    :param idx:
    :param window_size:
    :return:
    '''
    target_window = np.random.randint(1, window_size+1)
    #考慮input word前面單詞不夠的情況
    start_point = idx - target_window if (idx - target_window) > 0 else 0
    end_point = idx + target_window
    # 視窗上下文的單詞
    targets = set(words[start_point: idx] + words[idx+1: end_point+1])

    return list(targets)

def get_batches(word, batch_size, window_size = 2):
    '''

    :param word:
    :param batch_size:
    :param window_size:
    :return:
    '''
    #計算可以分成多少個batch
    n_batches = len(word) // batch_size
    #取整數個batch
    words = word[:n_batches*batch_size]

    for idx in range(0, len(words), batch_size): #從 0 開始 步長為 batch_size
        x, y = [], []
        batch = words[idx: idx+batch_size]
        for i in range(len(batch)):
            batch_x = batch[i]
            batch_y = get_targets(batch, i, window_size)
            #由於一個input word 會對應多個output word 所以長度需要統一
            x.extend([batch_x]*len(batch_y))
            y.extend(batch_y)
        yield x, y

# 構建網路

#輸入層
train_graph = tf.Graph()
with train_graph.as_default():
    inputs = tf.placeholder(tf.int32, shape=[None], name='inputs')
    labels = tf.placeholder(tf.int32, shape=[None,None], name='labels')


#embedding 層
vocab_size = len(id_to_vocab)
embedding_size = 128

with train_graph.as_default():
    embedding = tf.Variable(tf.random_uniform([vocab_size, embedding_size], -1, 1))

    #實現look up
    embed = tf.nn.embedding_lookup(embedding, inputs)


## 負取樣
n_sampled = 100

with train_graph.as_default():
    w = tf.Variable(tf.truncated_normal([vocab_size, embedding_size], stddev=0.1))
    b = tf.Variable(tf.zeros(vocab_size))

    loss = tf.nn.sampled_softmax_loss(w, b, labels, embed, n_sampled, vocab_size)

    cost = tf.reduce_mean(loss)

    optimizer = tf.train.AdamOptimizer().minimize(cost)


##驗證詞的相似度
with train_graph.as_default():
    #隨機選詞
    valid_size = 16
    valid_window = 100
    #從不同的位置選取8個詞
    valid_examples = np.array(random.sample(range(valid_window), valid_size//2))
    valid_examples = np.append(valid_examples,
                               random.sample(range(1000,1000+valid_window), valid_size//2))
    valid_size = len(valid_examples)

    valid_dataset = tf.constant(valid_examples, dtype=tf.int32)

    #向量單位化
    norm = tf.sqrt(tf.reduce_sum(tf.square(embedding), 1, keepdims=True))
    normalized = embedding / norm
    valid_embedding = tf.nn.embedding_lookup(normalized, valid_dataset)
    #餘弦相似度
    similarity = tf.matmul(valid_embedding, normalized, transpose_b=True)


#訓練
epochs = 10 # 迭代輪數
batch_size = 1000 # batch大小
window_size = 2 # 視窗大小

with train_graph.as_default():
    saver = tf.train.Saver() # 檔案儲存

with tf.Session(graph=train_graph) as sess:
    iteration = 1
    loss = 0
    sess.run(tf.global_variables_initializer())

    for e in range(1, epochs+1):
        batches = get_batches(train_words, batch_size, window_size)
        start = time.time()
        #
        for x, y in batches:

            feed = {inputs: x,
                    labels: np.array(y)[:, None]}
            train_loss, _ = sess.run([cost, optimizer], feed_dict=feed)

            loss += train_loss
            print(loss)

            if iteration % 100 == 0:
                end = time.time()
                print("Epoch {}/{}".format(e, epochs),
                      "Iteration: {}".format(iteration),
                      "Avg. Training loss: {:.4f}".format(loss/100),
                      "{:.4f} sec/batch".format((end-start)/100))
                loss = 0
                start = time.time()

            # 計算相似的詞
            if iteration % 1000 == 0:
                # 計算similarity
                sim = similarity.eval()
                for i in range(valid_size):
                    valid_word = id_to_vocab[valid_examples[i]]
                    top_k = 8 # 取最相似單詞的前8個
                    nearest = (-sim[i, :]).argsort()[1:top_k+1]
                    log = 'Nearest to [%s]:' % valid_word
                    for k in range(top_k):
                        close_word = id_to_vocab[nearest[k]]
                        log = '%s %s,' % (log, close_word)
                    print(log)

            iteration += 1

    save_path = saver.save(sess, "checkpoints/text8.ckpt")
    embed_mat = sess.run(normalized)

viz_words = 500
tsne = TSNE()
embed_tsne = tsne.fit_transform(embed_mat[:viz_words, :])
fig, ax = plt.subplots(figsize=(14, 14))
for idx in range(viz_words):
    plt.scatter(*embed_tsne[idx, :], color='steelblue')
    plt.annotate(id_to_vocab[idx], (embed_tsne[idx, 0], embed_tsne[idx, 1]), alpha=0.7)
plt.show()

word2vec TensorFlow 註釋版本

import tensorflow as tf import numpy as np import time import random from collections import Counter import os os.environ['TF_CPP_MIN_LOG_LEVEL'

centos7下安裝部署tensorflow GPU 版本

tensorflow gpu nvidia-modprobe nvidia-smi系統環境：centos71. 安裝 Python 2.7 # yum -y install zlib-devel bzip2-devel openssl-devel ncurses-devel sqlite-dev

ABP+Zero+Metronic+Redis的完美結合快速啟動模板（超級代碼詳細註釋版本）

詳細啟動 gpo bubuko abp 掃一掃 com 註釋快速微信掃一掃並支付成功，聯系QQ:770628656獲取所有源碼（超級代碼詳細註釋版本） ABP+Zero+Metronic+Redis的完美結合快速啟動模板（超級代碼詳細註

虛擬機 Ubuntu18.04 tensorflow cpu 版本

http 虛擬機 style 設置不存在 vgg 正常 div 都是虛擬機 Ubuntu18.04 tensorflow cpu 版本虛擬機VMware 配置： 20G容量，可擴充 2G內存，可擴充網絡采用NAT模式平臺：win10下的Ubuntu18.04

Ubuntu 16.04 配置安裝 Tensorflow Gpu版本

Ubuntu 16.04 配置安裝 Tensorflow Gpu版本 1、安裝CUDA8.0 2、更改gcc版本 3、安裝深度學習庫cuDNN 4、安裝 Tensorflow Gpu enable python 2.7 版本

tensorflow低版本與新版本之間的module引起的錯誤

最近開始學習tensorflow了，發現學習教程中存在一些module不存在的報錯，或者某種表達方式現在的版本已經被棄用，或者在將來會被棄用的warning。下面就給出這段時間的程式碼學習中遇到的一些表述及解決問題吧。 AttributeError: 'modul

Tensorflow不同版本之間出現的錯誤

問題一：TypeError: Expected int32, got list containing Tensors of type ‘_Message’ instead. tensorflow 函式tf.cocat([fw,bw],2)出錯: Expected int32, got l

Win10系統下安裝cudnn6.0+CUDA8.0+anaconda+tensorflow GPU版本

cudnn6安裝包: https://pan.baidu.com/s/1ko5kTFj5hTNrGEBpmqgs-A 密碼：jpw5 之前在win10下一直配置不好TensorFlow(GPU)版本，苦苦掙扎幾天後無奈轉向在ubantu 14.04下安裝，安裝成功後近日又想在Windo

Tensorflow 低版本程式碼自動升級為1.0版本

TensorFlow 1.0 中的 API 有所變化，引數位置發現變化，造成在 TensorFlow 0.n 上執行的 TensorFlow 程式無法在 TensorFlow 1.0 上執行。自動將程式碼移植到 1.0，有一個轉換工具。 GitHub工具包地址：https://github

關於tensorflow的版本的查詢

關於tensorflow的版本的查詢課程系列：Deep Learning with Python, TensorFlow, and Keras tutorial 地址：https://www.youtube.com/watch?v=wQ8BIBpya2k&list=PLQVvvaa

檢視Ubuntu/cuda/Tensorflow/Pytorch版本

檢視Cuda版本： cat /usr/local/cuda/version.txt CUDA Version 9.0.176 檢視Linux/Ubuntu版本：（1） cat /proc/version 輸出: Linux versio

ubuntu安裝tensorflow gpu版本

由於之前用的1.4，cuda8.0，所以這次重灌了一下、先裝驅動再裝cuda9.0，下載 sudo sh cuda_9.2.148_396.37_linux.run Do you accept the previously read EULA，輸入 acc

anaconda更新tensorflow Mac版本

搞了半天終於把anaconda的tensorflow1.1.0版本升級到1.12.0 不用那麼麻煩換清華源(也可能是掛了VPN的原因) 直接在命令臺輸入 source active XXXX（你的環境名稱）進入該環境如（tensorflow）安裝CPU最新版本 pip

centos7 源碼編譯安裝TensorFlow CPU 版本

grpc 遇到 cloud pla bin index.php 都在頭文件 evel 一、前言我們都知道，普通使用pip安裝的TensorFlow是萬金油版本，當你運行的時候，會提示你不是當前電腦中最優的版本，特別是CPU版本，沒有使用指令集優化會讓TensorFlo

WIN10 + GTX 1060 + Tensorflow GPU版本安裝記錄

最近買了臺本做訓練用，因為一直沒GPU，今天晚上配置一下TensorFlow環境，配置如下：安裝VS2017 官方下載連結：https://visualstudio.microsoft.com/downloads/?rr=https%3A%2F%2Fwww.baidu.com

文字分類之CNN模型（TensorFlow實現版本）

前言最近在琢磨文字分類相關的深度學習模型，也研讀了以下三篇使用卷積神經網路CNN實現的文字分類論文：（1）《Convolutional Neural Networks for Sentence Classification》（2）《Character-level Convo

輕鬆無錯不傷系統的配置深度學習框架 tensorflow cuda cudnn tensorflow caffe 版本任意切換多版本並存

前置安裝：nvidia 顯示卡驅動下一步安裝anaconda，如果安裝anaconda3就會自動去連結python3 配套的庫。首先理解下配置環境是在幹嘛：很簡單，就是安裝軟體那麼怎麼簡化這個過程，避免換個環境，就得解除安裝重灌，和別人共用一個伺服器，就為了配置環境焦頭爛額。

tensorflow各版本間問題彙總

問題一：TypeError: Expected int32, got list containing Tensors of type ‘_Message’ instead. tensorflow 函式tf.cocat([fw,bw],2)出錯: Expected int32, got list

Ubuntu16.04配置TensorFlow———GPU版本（gtx1070+ubuntu16.01）

博主研究了下，參考了別人的部落格，也出現了問題，然後解決。相信按照接下來的教程是可以很簡單的安裝TensorFlow-gpu的。在開始之前，首先得了接大概步驟：1、安裝顯示卡驅動2、安裝cuda,3、安裝cudnn,4、安裝anaconda 5、建立虛擬TensorFlow環境並配置Tenso

記錄：Ubuntu 18.04 安裝 tensorflow-gpu 版本

記錄：Ubuntu 18.04 安裝 tensorflow-gpu 版本最近需要跑比較大的模型，電腦上的 cpu 版本太慢了，跑了兩天實驗室，大冬天的，還是待在宿舍學習比較舒服，於是狠下心來重新裝了系統，探索一下 gpu 版本的安裝。比較令人可喜的是，跟著前輩們的經驗，還是讓

word2vec TensorFlow 註釋版本

相關推薦