資料轉換Word2Vec和Doc2Vec

阿新 • • 發佈：2018-11-30

Gensim 構建詞袋模型

import jieba
#定義停用詞、標點符號
punctuation = ["，","。","：", "；", "？"]
#定義語料
content = ["機器學習帶動人工智慧飛速的發展。",
           "深度學習帶動人工智慧飛速的發展。",
           "機器學習和深度學習帶動人工智慧飛速的發展。"
          ]
#分詞
segs_1 = [jieba.lcut(con) for con in content]
# 去停用詞和標點符號
tokenized = []
for sentence in segs_1:
    words = []
    for word in sentence:
        if word not in punctuation:
            words.append(word)
    tokenized.append(words)
#求並集
bag_of_words = [ x for item in segs_1 for x in item if x not in punctuation]
#去重
bag_of_words = list(set(bag_of_words))
bag_of_word2vec = []
for sentence in tokenized:
    tokens = [1 if token in sentence else 0 for token in bag_of_words ]
    bag_of_word2vec.append(tokens)
from gensim import corpora
import gensim
#tokenized是去標點之後的
dictionary = corpora.Dictionary(tokenized)
# 儲存詞典
dictionary.save('deerwester.dict')
# 檢視詞典和下標 id 的對映
print(dictionary.token2id)
corpus = [dictionary.doc2bow(sentence) for sentence in segs_1]
print(corpus)

執行結果如下：
{‘人工智慧’: 0, ‘發展’: 1, ‘學習’: 2, ‘帶動’: 3, ‘機器’: 4, ‘的’: 5, ‘飛速’: 6, ‘深度’: 7, ‘和’: 8}
稀疏向量結果如下：
[[(0, 1), (1, 1), (2, 1), (3, 1), (4, 1), (5, 1), (6, 1)], [(0, 1), (1, 1), (2, 1), (3, 1), (5, 1), (6, 1), (7, 1)], [(0, 1), (1, 1), (2, 2), (3, 1), (4, 1), (5, 1), (6, 1), (7, 1), (8, 1)]]

詞向量模型 Word2Vec

from gensim.models import Word2Vec
import jieba
#定義停用詞、標點符號
punctuation = [",", "。", ":", ";", ".", "'", '"', "’", "?", "/", "-", "+", "&", "(", ")"]
sentences = [
"長江是中國第一大河，幹流全長6397公里（以沱沱河為源），一般稱6300公里。流域總面積一百八十餘萬平方公里，年平均入海水量約九千六百餘億立方米。以幹流長度和入海水量論，長江均居世界第三位。",
"黃河，中國古代也稱河，發源於中華人民共和國青海省巴顏喀拉山脈，流經青海、四川、甘肅、寧夏、內蒙古、陝西、山西、河南、山東9個省區，最後于山東省東營墾利縣注入渤海。幹流河道全長5464千米，僅次於長江，為中國第二長河。黃河還是世界第五長河。",
"黃河,是中華民族的母親河。作為中華文明的發祥地,維繫炎黃子孫的血脈.是中華民族民族精神與民族情感的象徵。",
"黃河被稱為中華文明的母親河。公元前2000多年華夏族在黃河領域的中原地區形成、繁衍。",
"在蘭州的“黃河第一橋”內蒙古托克托縣河口鎮以上的黃河河段為黃河上游。",
"黃河上游根據河道特性的不同，又可分為河源段、峽谷段和沖積平原三部分。 ",
"黃河,是中華民族的母親河。"
]
# 分詞，去標點符號、停用詞
sentences = [jieba.lcut(sen) for sen in sentences]
tokenized = []
for sentence in sentences:
    words = []
    for word in sentence:
        if word not in punctuation:
            words.append(word)
    tokenized.append(words)
# 進行模型訓練
model = Word2Vec(tokenized, sg=1, size=100,  window=5,  min_count=2,  negative=1, sample=0.001, hs=1, workers=4)
model.save('model')  #儲存模型
model = Word2Vec.load('model')   #載入模型
print(model.similarity(u'黃河', u'長江'))
print(model.most_similar(positive=[u'黃河', u'母親河'], negative=[u'長江']))

將詞變成詞向量的工具：Doc2Vec

import jieba
#定義停用詞、標點符號
punctuation = [",", "。", ":", ";", ".", "'", '"', "’", "?", "/", "-", "+", "&", "(", ")"]
sentences = [
"長江是中國第一大河，幹流全長6397公里（以沱沱河為源），一般稱6300公里。流域總面積一百八十餘萬平方公里，年平均入海水量約九千六百餘億立方米。以幹流長度和入海水量論，長江均居世界第三位。",
"黃河，中國古代也稱河，發源於中華人民共和國青海省巴顏喀拉山脈，流經青海、四川、甘肅、寧夏、內蒙古、陝西、山西、河南、山東9個省區，最後于山東省東營墾利縣注入渤海。幹流河道全長5464千米，僅次於長江，為中國第二長河。黃河還是世界第五長河。",
"黃河,是中華民族的母親河。作為中華文明的發祥地,維繫炎黃子孫的血脈.是中華民族民族精神與民族情感的象徵。",
"黃河被稱為中華文明的母親河。公元前2000多年華夏族在黃河領域的中原地區形成、繁衍。",
"在蘭州的“黃河第一橋”內蒙古托克托縣河口鎮以上的黃河河段為黃河上游。",
"黃河上游根據河道特性的不同，又可分為河源段、峽谷段和沖積平原三部分。 ",
"黃河,是中華民族的母親河。"
]
# 分詞，去標點符號、停用詞
sentences = [jieba.lcut(sen) for sen in sentences]
tokenized = []
for sentence in sentences:
    words = []
    for word in sentence:
        if word not in punctuation:
            words.append(word)
    tokenized.append(words)

# 定義資料預處理類，作用是給每個文章新增對應的標籤
from gensim.models.doc2vec import Doc2Vec,LabeledSentence
doc_labels = ["長江","黃河","黃河","黃河","黃河","黃河","黃河"]

class LabeledLineSentence(object):
    def __init__(self, doc_list, labels_list):
       self.labels_list = labels_list
       self.doc_list = doc_list
    def __iter__(self):
        for idx, doc in enumerate(self.doc_list):
            yield LabeledSentence(words=doc,tags=[self.labels_list[idx]])

iter_data = LabeledLineSentence(tokenized, doc_labels)
model = Doc2Vec(dm=1, size=100, window=8, min_count=5, workers=4)
model.build_vocab(iter_data)
model.train(iter_data,total_examples=model.corpus_count,epochs=1000,start_alpha=0.01,end_alpha =0.001)
# 根據標籤找最相似的，這裡只有黃河和長江，所以結果為長江，並計算出了相似度
print(model.docvecs.most_similar('黃河'))
print(model.docvecs.similarity('黃河', '長江'))

資料轉換Word2Vec和Doc2Vec

Gensim 構建詞袋模型 import jieba #定義停用詞、標點符號 punctuation = ["，","。","：", "；", "？"] #定義語料 content = ["機器學習帶動人工智慧飛速的發展。", "深度學習帶動人工智慧飛速的發展。",

word2vec 和 doc2vec 詞向量表示

ron 中心 con 線性如果存在但是標簽 word Word2Vec 詞向量的稠密表達形式（無標簽語料庫訓練） Word2vec中要到兩個重要的模型，CBOW連續詞袋模型和Skip-gram模型。兩個模型都包含三層：輸入層，投影層，輸出層。 1.Skip-Gr

Gensim中word2vec和doc2vec的基本用法

一、 word2vec： from gensim.models.word2vec import Word2Vec model = Word2Vec(lines, sg=1, size=100, wi

cifar10 windows caffe_master下的資料轉換lmdb和leveldb

開始訓練該案例的時候，對資料格式轉換有疑問，普遍講解是轉換成leveldb格式 cifar10與minist的資料轉換要求不同，cifar10在資料轉換時要給出要轉換的格式。我下載的是二進位制檔案資料所得5個訓練和1個測試樣本，將這些bin檔案放入input資料夾中（新

gensim訓練word2vec和doc2vec

word2vec和doc2vec是做NLP過程中經常使用的方法。用向量表示詞彙這種做法由來已久，最早使用的是one-hot向量，即只有一個維度為1，其餘維度都為0，但這種做法有很多缺陷，過多的維度會導致資料處理的困難，而且這種表示方法無法體現詞所在的上下文關係。於是便有了wo

深度學習筆記——Word2vec和Doc2vec原理理解並結合程式碼分析

一直在用Word2vec和Doc2vec做Word Embedding和Sentence/Document EMbedding，但是剛開始用的時候對其原理一直是一知半解，只是知道怎麼用而已。古人云：既要知其然，也要知其所以然。所以，結合作者論文，以及網上各位前輩的部落格和

Java byte資料轉換和處理總結

一.byte和int相互轉換的方法 java程式或Android程式的socket資料傳輸，都是通過byte陣列，但是int型別是4個byte組成的，如何把一個整形int轉換成byte陣列，同時如何把一個長度為4的byte陣列轉換為int型別。 /** * int到byte[]

spring5-驗證、資料繫結和型別轉換

5.1 介紹 {#toc_1} JSR-303/JSR-349 Bean Validation 在設定支援方面，Spring Framework 4.0支援Bean Validation 1.0(JSR-303)和Bean Validation 1.1(JSR-349)，也將其改寫成了Spr

SpringMVC的資料轉換、格式化和資料校驗

目錄 5.案例一、資料轉換 Spring MVC 上下文中內建了很多轉換器，可完成大多數 Java 型別的轉換工作。 1.ConversionService ConversionServ

opencv中rgb格式資料和base64資料轉換

最近在做一個專案，需要將base64轉成圖片rgb格式。一般的做法是將base64字串先解碼寫入檔案，然後再去cv2.imread讀取圖片。這樣就繞彎了，如果能夠從base64直接轉為imread得到的rbg矩陣，就會節省時間開銷，具體做法比較簡單： def base6

資料分析之用Power Query實現資料轉換和清洗（功能操作篇）

一個案例快速瞭解Power Query 憑藉 Power Query，可以搜尋資料來源，建立連線，然後按照可滿足你需求的方式調整資料（例如刪除列、更改資料型別或合併表格）以建立報表。例：將門店一&門店二兩個工作簿的資料整合到一張工作表，並統計出各銷售代表每個月的業

《Spring 5 官方文件》5. 驗證、資料繫結和型別轉換

原文連結譯者：14shadow43 5 驗證、資料繫結和型別轉換 5.1 介紹 JSR-303/JSR-349 Bean Validation 在設定支援方面，Spring Framework 4.0支援Bean Validation 1.0(JSR-303)和Bean Validation

json資料，字典和字串相互轉換

text = {"name":"Jack","age":29} read_json = json.loads(text) # 把字典轉換為json print(read_json) print(type(read_json)) result = json.dumps(read_j

Glide4.8原始碼拆解（三）Registry和資料轉換流程

前言 Registry是Glide中非常重要的知識，可以把它理解成連結各個核心功能模組的集中營或者掛載中心，這一章節就來分解它是如何建立和運作的：本章要討論的內容： Registry的基本構成；各個模組的功能和介紹；資料的轉換流程；從Registry開始 Registry是

float型別和16進位制資料轉換

先看一下IEEE關於浮點數的定義： IEEE 754規定了四種表示浮點數值的方式：單精確度（32位元）、雙精確度（64位元）、延伸單精確度（43位元以上，很少使用）與延伸雙精確度（79位元以上，通常以80位元實做）。只有32位元模式有強制要求，其他都是選擇性的。 3

java痛苦學習之路[十二]JSON+ajax+Servlet JSON資料轉換和傳遞

1、首先客戶端需要引入 jquery-1.11.1.js 2、其次javaweb工程裡面需要引入jar包 [commons-beanutils-1.8.0.jar、commons-collections-3.1.jar、commons-lang-2.4.jar、commo

.mat,.txt,.csv 資料轉換為weka中的arff格式及matlab和Weka之間相互轉換格式

function r = CSVtoARFF (data, relation, type) % csv to arff file converter % load the csv data [rows cols] = size(data); % op

python讀取csv和txt資料轉換成向量

最近寫程式需要從檔案中讀取資料，並把讀取的資料轉換成向量。查閱資料之後找到了讀取csv檔案和txt檔案兩種方式，下面結合自己的實驗過程，做簡要記錄，供大家參考：1、讀取csv檔案的資料import csv filtpath = "data_test.csv" with o

linq查詢建立策略及資料轉換--學習linq的資料和筆記（六）

建立複雜linq查詢的建立策略其實跟子查詢有些相似，就是在查詢的過程中對資料進行進一步的處理，資料中介紹了三種建立策略如下（以下內容來自部落格園）漸進式建立查詢漸進式建立查詢就是通過連結查詢運算子的方式來建立LINQ查詢。因為每一個查詢運算子返回一個裝飾者sequen

GoldenGate中使用strcat和strext進行資料轉換

在OGG中可以對源欄位的內容進行合併或拆分，從而實現類似於“ETL”的功能。 strcat(s1,s2,s3,,,):用於合併字串； strext(str, start, end)：用於獲取指定位置的字串。示例如下：源端myphone表，2個欄位: SQL> d

資料轉換Word2Vec和Doc2Vec

Gensim 構建詞袋模型

詞向量模型 Word2Vec

將詞變成詞向量的工具：Doc2Vec

相關推薦