TensorFlow--新聞閱讀與個性化搜尋系統（程式碼）

阿新 • • 發佈：2019-02-04

1.匯入模組

from __future__ import absolute_import
from __future__ import division
from __future__ import print_function

import collections
import math
import os                        #作業系統:操作檔案模組
import zipfile                   #給檔案解壓
import numpy as np
from tempfile import gettempdir
from six.moves import 
 urllib
from six.moves import xrange     #迴圈

import tensorflow as tf

2. 獲取檔案並解壓、初步處理

def zip_file(filename,expected_bytes):              # 對相應檔案進行解壓  
# expected_bytes 用於檢驗檔案的完整性和正確性            /filename 用來訓練模型 的語料檔案，語料就是一片文章
    local_filename = os.path.join('.\\',filename)   # 輸入檔案路徑
    statinfo = os.stat(local_filename)              # 獲取檔案的屬性，stat statistics 檔案統計資訊 

    if statinfo.st_size == expected_bytes:          # 檔案大小是否與（屬性）統計的大小一致，判斷檔案是否損壞
        print('goodfile',filename)
    else:
        raise Exception('bad file')
    #對檔案解壓
    with zipfile.ZipFile(local_filename) as f:      # 一種簡化的處理異常exception的方法
        data = tf.compat.as_str(f,read(f.namelist()[0 
])).split() #解壓轉換成字串，變換列表
    return data

瞭解文章詞

vocabulary = zip_file('text8.zip',31344016) #得到訓練語料包含的所有詞（沒有進行分詞，輸入是英文）
print('Data size',len(vocabulary))          #一共多少個詞

vocabulary_size = 50000                     # 限定5萬（輸入層編碼的維度）高頻詞，低頻詞意義不大
                                            # 具體做專案工程的時候，根據統計來確定

3.構造輸入資料 Batch

#統計，原始詞列表結構化，生成batch 樣本 

def build_dataset(words,n_words):  # words：原始資料vocabulary；n_words：vocabulary_size
    count = [['UNK',-1]]           # count[]列表用來統計詞頻， 
    #UNK(unknow):代表被過濾掉的所有低頻詞，例如囧，鰲等被UNK替代；-1表示還未出現，即初始化
    count.extend(collections.Counter(words).most_common(n_words -1))     
                                   # UNK  extend新增到列表的尾部
    dictionary = {}                # 編碼，排在前面的，詞頻越高，編碼值越小
    i = 0
    for word, _ in cout:
        dictionary[word] = i
        i += 1
    data = []                      # 用來儲存 原文編碼
    unk_count = 0                  # 用來統計被過濾的低頻詞
    for word in words:             # words:原文
        index = dictionary.get(word,0)  #default:若key不存在，則返回預設值
        unk_count += 1
        data.append(index)
    cout[0][1] = unk_count

    reversed_dictionary = dict(zip(dictionary.values():dictionary.key()))   
                                #把key和value 反轉，zip用來轉換行列
    return data,count,dictionary,reversed_dictionary

檢視統計詞

data,count,dictionary,reversed_dictionary = build_dataset(vocabulary,vocabulary_size)
print('most common words:',count[:5])       #頻數最高的五個詞

data_index = 0 #對原文定位

4. skip-gram方法：用於生成 Batch的樣本

def generate_batch(batch_size,num_skips,skip_windows): #skip_windows：總詞長-1
    global data_index
    assert batch_size % num_skips ==0                  #隨機從文中取num_skips個詞
    assert num_skips <= 2 * skip_windows

    batch = np.ndarray(shape = (batch_size),dtype = np.int32)     #存放訓練樣本,輸入，只有一行
    labels = np.ndarray(shape = (batch_size,1),dtype = np.int32)  #存放訓練標註,輸出，只有一列
    span = 2 * skip_windows+1                    #取詞範圍,長度
    buffer = collections.deque(maxlen = span)    #double-ended 雙向佇列，存放文字
    if (data_index + span > len(data)):
        data_index = 0                           #訓練語料迴圈使用
    buffer.extend(data[data_index:data_index + span])

    data_index = span
    for i in range(batch_size// num_skips):         
        context_words = [w for w in range(span) if w != skip_windows]    
        #中間詞的 上下文 例如【0，1，2，  4，5，6】
        random.shuffle(context_words)            #隨機取樣
        word_to_use = collections.deque(context_words)
        for j in range (num_skips):
            batch[i * num_skips + j] = buffer[skip_windows] #中心詞
            context_words = word_to_use.pop()
            labels[i * num_skips + j,0] = buffer[context_words]
        if data_index == len(data):
            buffer[:] = data[:span]              #取到末尾資料的時候
            data_index = span
        else:
            buffer.append(data[data_index])
            data_index += 1

    data_index = (data_index + len(data) - span) % len(data)
    return batch,labels                         #輸入和輸出是分開放的

5.定義神經網路初始化資料

batch_size = 128     #適當的偏向
embedding_size = 300 #中間層節點的個數，詞向量（word2vec）的維度
skip_window = 2
num_skips = 2        #取樣值 偏小（經驗值）
num_sampled = 64     #取樣 與soft max的計算有關

valid_size = 16      #測試集的大小
valid_window = 100   #生成隨機列表的值<100
valid_examples = np.random.choice(valid_window,valid_size,replace = Fale)

gragh = tf.Gragh()   #直觀理解，所在tensor 構成了一幅圖

6.構造神經網路

with gragh.as_default():
    train_input = tf.placebolder(tf.int32,shape = [batch_size])    #tensor 一行  placeholder佔位符，存放batch樣本
    train_labels = tf.placebolder(tf.int32, shape=[batch_size,1])  #tensor 一列  placeholder佔位符


    with tf.device('/cpu:0'): 
        #存放所有的詞,random_uniform()初始化,均勻分佈  embeddings是weight矩陣 
        embeddings = tf.Variable(tf.random_uniform([vocabulary_size.embedding_size]),-1,0,1.0)    

        #找出一批子矩陣 其實就是找出batch樣本對應的weight
        embed = tf.nn.embedding_lookup(embeddings,train_input)      

        valid_dataset = tf.constant(valid_examples, dtype=tf.int32)
        nce_weights = tf.Variable(
            tf.truncated_normal([vocabulary_size, embedding_size], stddev=1.0 / math.sqrt(embedding_size)))  #
        # truncated_normal是切掉左右尾巴的正態分佈，stddev=1.0 / math.sqrt(embedding_size)很有名的初始化技巧
        nce_biases = tf.Variable(tf.zeros(vocabulary_size))         #定義常數bias

    # 構造損失函式 
    # nce：noise contranstive estimation 噪聲對比估計  
    # 預設使用了 softmax函式（封裝了平均交叉熵損失函式），損失函式近似計算
    loss = tf.reduce_mean(tf.nn_loss(weights = nce_weights,
                                    biases = nce_biases,
                                    labels = train_labels,
                                    inputs = embed,
                                    num_sampled = num_sampled,
                                    num_classes = vocabulary_size))


    # 優化器：梯度提升優化器(1.0: learning rate 學習率)
    optimizer = tf.train.GradientDcisionOptimizer(1.0).minimize(loss)   #小步長，防止抖動，梯度下降演算法

    #測試用的：歸一化後，計算詞與詞距離（夾角的餘弦值）
    norm = tf.sqrt(tf.reduce_sum(tf.queare(embeddings),1,keep_dims = True))
    normalized_embeddings = embeddings/norm
    valid_embeddings = tf.nn.embedding_lookup(normalized_embeddings,valid_dataset)
    similarity = tf.matmul(valid_embeddings,
                            normalized_embeddings,
                            transpose_b = True)        #內積：夾角的餘弦值

    init = tf.global_variable_initializer()            #初始化全域性變數

num_steps = 100000                                     #訓練迭代次數

7. 訓練

with tf.Session(gragh = gragh) as sesion:
    init.run()

    average_loss = 0    
    for step in arange(num_steps):
        batch_inputs,batch_labels = generate_batch(batch_size,num_skips,skip_window)
        feed_dict = {train_input:batch_inputs,train_labels:batch_labels}

        _.loss_val = session.run([optimizer,loss],feed_dict = feed_dict)
        #run()函式計算又先後
        average_loss += loss_val

        if (step % 2000 ==0):       # 每2000次 統計一下模型誤差
            if(step > 0):
                average_loss /= 2000
            print('average loss at step is'.step,':',average_loss)
            average_loss = 0

    if step % 10000 ==0:
        sim = similarity.eval()
        for i in xrange(valid_size):
            valid_word = reversed_dictionary[valid_examples[1]]
            top_k = 8               # number of nearest neighbors
            nearest = (-sim[i,:]).argsort()[1:top_k + 1]
            log_str = 'Nearst to %s:' % valid_word
            for k in xrange(top_k):
                close_word = reversed_dictionary[nearest[k]]
                log_str = '%s %s,'% (log_str,close_word)
            print(log_str)

    final.embeddings = normalized_embeddings.eval() #歸一化，輸出詞向量

TensorFlow--新聞閱讀與個性化搜尋系統（程式碼）

1.匯入模組 from __future__ import absolute_import from __future__ import division from __future__ import print_function import coll

個性化推薦系統（二）---構建推薦引擎

架構商品素材業務開發 jpeg 用戶體驗 rom 機器學習微信當下推薦系統包含的層級特別的多，整個線上推薦系統包含：最上層線上推薦服務、中層各個推薦數據召回集（數據主題、分類池子）、底層各種推薦模型。推薦系統介入線上各種業務，推薦系統當下已經

個性化推薦系統（三）---推薦系統意義一點思考

進展這樣的 es2017 意見推廣移動付出技術 com 個性化推薦是隨著移動互聯網發展不斷發展起來的，國內應用個性化推薦技術最早應該是豆瓣，在web2.0興起時做了很多嘗試，給網民帶來很多新鮮感覺、體驗。後來是國外電影租賃網站netflex推波助瀾

MemoryModule閱讀與PE檔案解析（一）

參考連結 https://github.com/fancycode/MemoryModule 本文閱讀github 上MemoryModule 程式碼的同時，介紹PE 檔案相關的基礎知識。該專案實現“手

Linux套接字與虛擬檔案系統（1）：初始化和建立

引言在Unix的世界裡，萬物皆檔案，通過虛擬檔案系統VFS，程式可以用標準的Unix系統呼叫對不同的檔案系統，甚至不同介質上的檔案系統進行讀寫操作。對於網路套接字socket也是如此，除了專屬的Berkeley Sockets API，還支援一些標準的檔案IO系統呼叫如read(v)、w

Linux套接字與虛擬檔案系統（2）：操作和銷燬

接上篇初始化與建立，本篇闡述Socket操作和銷燬兩部分的實現。 Socket操作系統呼叫read(v)、write(v)是使用者空間讀寫socket的一種方法，為了弄清楚它們是怎麼通過VFS將請求轉發到特定協議的實現，下面以read為例（write同理），並假定檔案描述

個性化推薦系統（七）--- ABTest ab測試平臺

個性化推薦系統、搜尋引擎、廣告系統，這些系統都需要在線上不斷上線，不斷優化，優化之後怎麼確定是好是壞。這時就需要ABTest來確定，最近想的辦法、優化的演算法、優化的邏輯資料是正向的，是有意義的，是提升資料效果的。 ab需求能方便測試，提

qtp指令碼測試飛機訂票系統（程式碼）

嗯，以前沒怎麼研究過這個，最近做課設用到了，順便發一下。有要用的話，自己改一下路徑什麼的。版本qtp10.0 Mainaction Dim AgentName Dim Password Dim DateOfFlight Dim FaxNumber Dim SelectTest Dim Dat

Linux 檔案系統與裝置檔案系統（二）—— sysfs 檔案系統與Linux裝置模型

提到 sysfs 檔案系統，必須先需要了解的是Linux裝置模型，什麼是Linux裝置模型呢？一、Linux 裝置模型 1、裝置模型概述從2.6版本開始，Linux開發團隊便為核心建立起一個統一的裝置模型。在以前的核心中沒有獨立的資料結構用來讓核

系統分析與設計學習筆記（一）

學習掌握應該溝通基本最終表示對象毫無為什麽要學習這門課程？　　“擁有一把錘子未必能成為建築師”。這門課程學習的是面向對象分析和設計的核心技能的重要工具。對於使用面向對象技術和語言來，創建設計良好、健壯且可維護的軟件來說，這門課程所

ASP.NET MVC5+EF6+EasyUI 後臺管理系統（1）-前言與目錄（持續更新中...）

編碼規範圖標 pri log 任務 ros 部署基本 form 開發工具：VS2015(2012以上)+SQL2008R2以上數據庫　　您可以有償獲取一份最新源碼聯系QQ:729994997 價格 666RMB 升級後界面效果如下：日程管理 http://

30天自制操作系統（二）匯編語言學習與Makefile入門

-c 如何 wid 開發大小端 bio strong 入門小端 1 介紹文本編輯器這部分可直接略過 2 繼續開發 helloos.nas中核心程序之前的內容和啟動區以外的內容先不講了，因為還涉及到一些軟盤方面的知識。然後來講的是helloos.nas這個文件 ; h

nodeJs文件系統（fs）與流（stream）

writer pipe 常用事件 urn 種類型發生成功 fin console 一、簡介本文將介紹node.js文件系統（fs）和流（stream）的一些API已經參數使用情況。二、目錄文件系統將介紹以下方法： 1.fs.readFile

高校學生工作管理資訊系統的設計與實現--文獻隨筆（一）

一、基本資訊標題:高校學生工作管理資訊系統的設計與實現時間：2014 出版源：浙江工業大學領域分類：系統設計與實現二、研究背景問題定義：實現學生工作管理的資訊化，大學生思想政治教育的資訊化難點：高校學生工作管理系統對資料安全要求高，伺服器及網路環境應有專職人員維護相關工作：系統採用B/S

STL綜合例項打分系統（一）思路與框架

學校演講比賽學校要舉行一場演講比賽，共有24個人參加，按參加順序設定參賽號。比賽共三輪，前兩輪為淘汰賽，第三輪為決賽。比賽方式：分組比賽第一輪分為4個小組，根據參賽號順序依次劃分，比如100-105為一組，106-111為第二組，依次類推，每組6個人，每人分別按參賽號順序演講。當小

基於ASP.NET的高校輔導員工作管理系統的設計與實現--論文隨筆（四）

一、基本資訊標題:基於ASP.NET的高校輔導員工作管理系統的設計與實現時間：2017 出版源：南通理工學院關鍵詞：ASP.NET; SQL Server; 高校; 管理系統; 輔導員; 二、研究背景問題定義：高校學生數量越來越多，學生資訊也越來越龐大，在輔導員的日常工作中，所使用的傳統的電子表

親測！Ubuntu18.04與WIN10雙系統（USB EFI方式安裝—Grub2.0引導修復）完整教程

轉載請註明出處 https://blog.csdn.net/zouguo1211/article/details/81200628 前言前期準備 WIN10前期準備 Ubuntu 18.04 LTS 系統盤準備安裝 Grub修復 WIN10選項恢復常見問題

昆明醫科大學海源學院輔導員工作管理信息系統的研究與分析--文獻隨筆（七）

cms 學校應用進一步工作管理 file 研究自己 code 一、基本信息標題:昆明醫科大學海源學院輔導員工作管理信息系統的研究與分析時間：2015 出版源：雲南大學關鍵詞：信息系統; 輔導員工作; 學生信息; 二、研究背景問題定義：隨著學校學科門類的擴充以

輔導員工作管理資訊系統的設計與實現--論文隨筆（九）

一、基本資訊標題:輔導員工作管理資訊系統的設計與實現時間：2013 出版源：電子科技大學關鍵詞：輔導員工作管理系統; java; MVC; 二、研究背景問題定義：隨著高校的擴充套件，學生規模的不斷擴大，加上多個校區合併，多校區辦學模式和其他因素的影響，輔導員也越來越難以開展工作，輔導員壓力也逐漸

校園新聞管理系統的設計與實現——論文隨筆（十）

一、基本資訊標題：校園新聞管理系統的設計與實現時間：2017-04 出版源：華南理工大學領域分類：系統架構和設計二、研究背景問題定義：國內新聞業的管理和經營均落後於發達國家，新聞管理系統的研究與應用都較晚。發達國家的新聞採編和資訊釋出都已經基本上做到了智慧化、網路化和無紙化，國內急需開發一個自

TensorFlow--新聞閱讀與個性化搜尋系統（程式碼）

1.匯入模組

2. 獲取檔案並解壓、初步處理

瞭解文章詞

3.構造輸入資料 Batch

檢視統計詞

4. skip-gram方法：用於生成 Batch的樣本

5.定義神經網路初始化資料

6.構造神經網路

7. 訓練

相關推薦