利用搜狐新聞語料庫訓練100維的word2vec——使用python中的gensim模塊

阿新 • • 發佈：2019-02-13

.cn word code == topn ica window targe ive

　　語料數據來自搜狐新聞2012年6月—7月期間國內，國際，體育，社會，娛樂等18個頻道的新聞數據
　　數據處理參考這篇文章

　　模型訓練：

# -*- coding: utf-8-*-
from gensim.models.word2vec import Word2Vec 
sentences = [[‘A1‘,‘A2‘],[‘A1‘,‘A3‘,‘A2‘]] 

num=0
with open(‘sohu_train.txt‘) as trainText:  #, encoding=‘utf-8‘
    for line in trainText:
        id,catgre,body 
= line.split(‘^_^‘)
        words=body.replace(‘\n‘,‘‘).split(‘    ‘)
        sentences.append(words)
        # if num>1000:break
        num+=1
        # print(sentences)

model= Word2Vec(min_count=1)
print("start train ...")
model.build_vocab(sentences)
model.train(sentences,total_examples = model.corpus_count,epochs = model.iter)
 
print("train finished!",num)

model.save(‘./sohu_model/Model‘)
#model.save_word2vec_format(‘/tmp/mymodel.txt‘,binary = False)
#model.save_word2vec_format(‘/tmp/mymodel.bin.gz‘,binary = True)
#前一組方法保存的文件不能利用文本編輯器查看但是保存了訓練的全部信息，可以在讀取後追加訓練
#後一組方法保存為word2vec文本格式但是保存時丟失了詞匯樹等部分信息，不能追加訓練
print("save finished!")

　　模型使用：

# #模型使用
model = Word2Vec.load(‘./sohu_model/Model‘)
print("load model sesuess!")
# model.most_similar([‘北京‘])

print u‘most similar with 北京:‘
for i in model.most_similar("北京"): #計算余弦距離最接近“北京”的10個詞
    print i[0].decode(‘utf-8‘),i[1]

print u‘皇帝+女性-男性：‘
for i in model.most_similar(positive = [‘皇帝‘,‘女性‘],negative = [‘男性‘],topn = 3):print i[0].decode(‘utf-8‘),i[1]

print u‘手機+移動-智能：‘
for i in model.most_similar(positive = [‘手機‘,‘移動‘],negative = [‘智能‘],topn = 3):print i[0].decode(‘utf-8‘),i[1]

print u‘電影+科幻-劇情：‘
for i in model.most_similar(positive = [‘電影‘,‘科幻‘],negative = [‘劇情‘],topn = 3):print i[0].decode(‘utf-8‘),i[1]

print u‘北京 vector:‘
print model[‘北京‘]

　　輸出：

C:\Python27\lib\site-packages\gensim\utils.py:1212: UserWarning: detected Windows; aliasing chunkize to chunkize_serial
  warnings.warn("detected Windows; aliasing chunkize to chunkize_serial")
load model sesuess!
most similar with 北京:
C:\Python27\lib\site-packages\gensim\matutils.py:737: FutureWarning: Conversion of the second argument of issubdtype from `int` to `np.signedinteger` is deprecated. In future, it will be treated as `np.int32 == np.dtype(int).type`.
  if np.issubdtype(vec.dtype, np.int):
南京 0.670382142067
上海 0.661236405373
成都 0.639219224453
杭州 0.63784122467
廣州 0.631313323975
深圳 0.624626278877
武漢 0.624594151974
昆明 0.620243370533
長春 0.61394149065
長沙 0.60389906168
皇帝+女性-男性：
哥 0.60431176424
魔術師 0.586149096489
魔女 0.581812143326
手機+移動-智能：
智能手機 0.605030536652
互聯網 0.54615008831
蘋果 0.539426982403
電影+科幻-劇情：
紀錄片 0.648482918739
動畫 0.639703273773
迪斯尼 0.61851131916
北京 vector:
[-0.08981118  0.18538047 -4.7453156  -1.7730242   2.0390635   2.6085184
  5.088326    2.8057106   2.6798103  -1.4660915   2.778077    2.4279277
  0.69682086 -3.0003173   2.1341784   0.32419717 -5.2817945   0.18809023
 -1.3016417   3.8344557  -0.87402123 -0.26100433  2.8857462  -2.725345
 -2.5024219  -0.70686543 -0.4838663  -2.2535524   0.23617841  3.329134
  3.9053504  -1.9609474  -3.4581995   1.2530506  -2.079397    1.6266809
  0.23296945  1.4600109  -1.9104419   0.80835503 -0.13650164  3.355157
  2.4561696   0.6016032  -1.0312346   1.6474588   1.320931    1.4579619
  1.8017172  -3.5526018   1.2293625   4.798621   -3.5554793   0.5800354
  3.7429204  -0.4906999  -1.3069346  -1.0603447  -0.95469594 -0.35445935
 -1.7658769  -3.2370284  -2.2224278  -0.56134427 -0.46095294  2.8492029
  2.7202766  -3.3692176   1.1739812  -1.9770668   0.37050596  1.1764477
 -0.27834406  5.033905    0.09570877 -0.5670941  -2.1803875  -0.9094422
  1.0485793   0.03497482 -2.07145    -0.8045679  -1.8192968   2.6160874
  0.5630188  -0.45463613 -0.22750562  2.2233796   3.4276621  -0.8689221
  1.5558586  -0.39026013 -1.1843458  -3.378433   -4.2200727   1.6359595
  2.27458    -1.6011585  -0.89109504  2.3993087 ]

利用搜狐新聞語料庫訓練100維的word2vec——使用python中的gensim模塊

.cn word code == topn ica window targe ive 　　語料數據來自搜狐新聞2012年6月—7月期間國內，國際，體育，社會，娛樂等18個頻道的新聞數據　　數據處理參考這篇文章　　模型訓練： # -*- coding: utf-8-*-

Python中paramiko模塊在linux運維中應用

python linux 運維 python的paramiko模塊可以實現ssh客戶端的功能，使用起來也比較簡單。但是當服務器非常多的時候，每臺服務器上執行完全相同的簡單操作，也會花費大量的時間。下載模塊：paramiko.tar.gz使用tar解壓後在cd到目錄下最後使用rpm安裝 rpm -ivh

Tensorflow實戰學習(十八)【詞向量、維基百科語料庫訓練詞向量模型】

詞向量嵌入需要高效率處理大規模文字語料庫。word2vec。簡單方式，詞送入獨熱編碼(one-hot encoding)學習系統，長度為詞彙表長度的向量，詞語對應位置元素為1,其餘元素為0。向量維數很高，無法刻畫不同詞語的語義關聯。共生關係(co-occurre

webpack中 VUE使用搜狐ip庫查詢設備ip地址

text col contex import dirname let als 百度地圖 pan 1、index.html中引入百度地圖 <script type="text/javascript" src="http://pv.sohu.com/cityjson

對搜狗語料庫進行想要格式編碼的處理

1. 下載資料搜狗語料庫:http://www.sogou.com/labs/resource/cs.php,下載解壓. 2. 資料編碼處理在ubuntu環境下,編寫一個sh檔案: find ./ -type f -name "*.txt"|while read line;

運維自動化工具ansible（模塊使用）

copy fff lin 自動執行命令官網修改相同 mount 命令格式： ansible hosts -m shell -a ‘uptime‘ 解析： ansible #主命令 hosts #在/etc/ansible/hosts文件中定義的主

1-opencv庫中的模塊

分享 alt ima nbsp src -o 技術 images open 1- 1-opencv庫中的模塊

python添加模塊搜索路徑

16px inux dha append end linux python2.7 span margin 1.函數添加　　import sys sys.path 　　sys.path.append("c:\\") 2.修改pythonpath（試不通）　　windows

Python自動化運維——系統性能信息模塊

自動 cal install cer 網絡接口登錄 datetime 百分比 swap 模塊：psutil psutil是一個跨平臺庫，可以很輕松的為我們實現獲取系統運行的進程和資源利用率等信息。功能：主要是為了系統監控安裝： wget https://pypi.p

Python數據庫MySQL之數據備份、pymysql模塊

vim aca Go closed execute 庫文件 rdquo mode 3-0 一 IDE工具介紹生產環境還是推薦使用mysql命令行，但為了方便我們測試，可以使用IDE工具下載鏈接：https://pan.baidu.com/s/

利用python的zmail模塊發送郵件

python zmail今天看到馬哥linux運維的微信公眾號裏，推送了一個文章，用python實現的發送郵件的案例，故此實驗了一把，成功了，速記錄在案。使用python3.x版本，安裝zmail模塊；pip install zmail 本次使用qq郵箱發送郵件，前提是需要打開qq郵箱的pop3/smtp功

自動化運維之Ansible安裝與模塊應用

text cto ecb 命令輸入密碼插件 conn firewall 統一自動化運維之Ansible Ansible概述由於互聯網快速展導致產品更新換代速度逐漸加快，運維人員每天都要進行大量維護操作，人就按照傳統方式進行維護會使工作效率低下，只是，部署自動化運維就

Python及其常用模塊庫下載及安裝

方式自定義 ins scripts 文件夾 win nbsp sta nload 一、Python下載：https://www.python.org/downloads/ 二、Python模塊下載：http://www.lfd.uci.edu/~gohlke/python

自動化運維之Ansible應用基礎模塊（超詳細）

rip gid 軟件 start 文件路徑 use 發送 con 移除 Ansible是一種基於模塊進行工作的框架結構。批量部署能力就是由Ansible所運行的模塊實現的。簡而言之Ansible是基於“模塊”完成各種“任務”的。 Ansible常用的核心模塊模塊的基本語法

Python中gensim庫word2vec的使用

Python中gensim庫word2vec的使用： pip install gensim安裝好庫後，即可匯入使用： 1、訓練模型定義 from gensim.models import Word2Vec model = Word2Vec(sentences, sg

端口掃描器--利用python的nmap模塊

bsp spec service .py try clas def class 多線程安裝nmap模塊挺麻煩的，搞了半天不僅要安裝pip install nmap 還要sudo apt install nmap 給出代碼，沒有設多線程，有點慢，註意端口的類型轉換，

DL之Attention-ED：基於TF NMT利用帶有Attention的 ED模型訓練、測試(中英文平行語料庫)實現將英文翻譯為中文的LSTM翻譯模型過程全記錄

DL之Attention-ED：基於TF NMT利用帶有Attention的 ED模型訓練(中英文平行語料庫)實現將英文翻譯為中文的LSTM翻譯模型過程全記錄測試輸出結果模型監控 1、SCALARS clipp

Gensim訓練維基百科語料庫

說明最終的模型檔案：連結：https://pan.baidu.com/s/1acGhejPCw98Mx4iKozVZdw 提取碼：vsm1 原始碼github地址：https://github.com/datadevsh/wiki-gensim-word2vector 如果遇到編碼

word2vec實戰：獲取和預處理中文維基百科(Wikipedia)語料庫，並訓練成word2vec模型

前言傳統的方法是將詞彙作為離散的單一符號，這些符號編碼毫無規則，無法提供詞彙之間可能存在的關聯關係，而詞彙的向量表示將克服上述難題。向量空間模型（VSM）將詞彙表示在一個連續的向量空間中，語義近似的詞被對映為相鄰的資料點。VSM依賴於分散式假設思想，

遊戲運維的最佳實踐：搜狐暢遊自動化運維之旅！

運維遊戲搜狐暢遊搜狐黎誌剛見證了暢遊遊戲自動化運維平臺的從無到有，通過在其中踩過的坑、解過的結，他向大家來闡述遊戲運維的進階之路。本文主要圍繞暢遊遊戲管理體系與運維自動化的演變歷程、運維自動化的實現及未來運維四方面展開。暢遊運維管理體系與運維自動化的演變歷程暢遊運維管理體系演變歷程從 200

利用搜狐新聞語料庫訓練100維的word2vec——使用python中的gensim模塊

相關推薦