文字向量化------從文字到向量

阿新 • • 發佈：2018-11-01


from gensim import corpora, models, similarities

documents = ["Human machine interface for lab abc computer applications",

              "A survey of user opinion of computer system response time",

              "The EPS user interface management system",

              "System and human system engineering testing of EPS",

              "Relation of user perceived response time to error measurement",

              "The generation of random binary unordered trees",

              "The intersection graph of paths in trees",

              "Graph minors IV Widths of trees and well quasi ordering",

              "Graph minors A survey"]  





# remove common words and tokenize

stoplist = set('for a of the and to in'.split())

texts = [[word for word in document.lower().split() if word not in stoplist]

          for document in documents]

 

# remove words that appear only once

all_tokens = sum(texts, [])

tokens_once = set(word for word in set(all_tokens) if all_tokens.count(word) == 1)

texts = [[word for word in text if word not in tokens_once]

          for text in texts]

 

print texts

 

[['human', 'interface', 'computer'],

 ['survey', 'user', 'computer', 'system', 'response', 'time'],

 ['eps', 'user', 'interface', 'system'],

 ['system', 'human', 'system', 'eps'],

 ['user', 'response', 'time'],

 ['trees'],

 ['graph', 'trees'],

 ['graph', 'minors', 'trees'],

 ['graph', 'minors', 'survey']]

去停止詞之後，文字變成了這個格式，下面我們看一下如何實現了向量化


dictionary = corpora.Dictionary(texts)

##這裡實現了單詞的--對映

print dictionary.token2id

{'minors': 11, 'graph': 10, 'system': 5, 'trees': 9, 'eps': 8, 'computer': 0,

'survey': 4, 'user': 7, 'human': 1, 'time': 6, 'interface': 2, 'response': 3}

如何用這種方法去表示一片文件呢


new_doc = "Human computer interaction"

new_vec = dictionary.doc2bow(new_doc.lower().split())

print new_vec # the word "interaction" does not appear in the dictionary and is ignored

 

[(0, 1), (1, 1)]

這是什麼意思，首先前面建立的dict沒有interaction，自動過濾

字典0：computer出現了一次所以[0,1]

字典1：human出現了一次所以[1,1]

其他字典詞出現0詞


corpus = [dictionary.doc2bow(text) for text in texts]

corpora.MmCorpus.serialize('/tmp/deerwester.mm', corpus) # store to disk, for later use

print corpus

 

[(0, 1), (1, 1), (2, 1)]

[(0, 1), (3, 1), (4, 1), (5, 1), (6, 1), (7, 1)]

[(2, 1), (5, 1), (7, 1), (8, 1)]

[(1, 1), (5, 2), (8, 1)]

[(3, 1), (6, 1), (7, 1)]

[(9, 1)]

[(9, 1), (10, 1)]

[(9, 1), (10, 1), (11, 1)]

[(4, 1), (10, 1), (11, 1)]

同理對應到文字上

文字向量化------從文字到向量

from gensim import corpora, models, similarities documents = ["Human machine interface for lab abc computer applications", "A survey

文字向量化---從向量到向量（tfidf）

corpus = [dictionary.doc2bow(text) for text in texts] tfidf = models.TfidfModel(corpus) # 第一步--初始化一個模型 doc_bow = [(0, 1), (1, 1)] print tfidf[doc

文字向量化的方法

把文字表達為可以讓計算機來理解的形式，所謂文字表示，文字向量化。文字向量化，可以分為詞語的向量表達，短文字的向量表達，長文字的向量表達, 因為不同的情景需要用到不同的方法和處理方式。忽視這些細節，對一般情況下文字的向量化做了下調查，常見的思路介紹如下：一：向量空間

python 編寫程式，實現新建一個文字檔案，從文字中讀取字元

題目定義一個函式tongji(fname)，能實現顯示文字檔案內容，並統計出檔案中所有大寫字母，小寫字母，數字和其他符號的個數的功能。編寫程式，實現新建一個文字檔案，從裡面寫入任意行連續的字元，然後讀取該檔案內容，統計大小寫字母、數字和其他符號的個數。執行結果示例：

用Python開始機器學習（5：文字特徵抽取與向量化）

假設我們剛看完諾蘭的大片《星際穿越》，設想如何讓機器來自動分析各位觀眾對電影的評價到底是“贊”（positive）還是“踩”（negative）呢？這類問題就屬於情感分析問題。這類問題處理的第一步，就是將文字轉換為特徵。因此，這章我們只學習第一步，如何從文字中抽取特徵，並將其向量化。由於中文的處理涉及

python學習-文字資料分析1(主題提取+詞向量化)

原文地址： http://blog.sina.com.cn/s/blog_727a704c0102vn44.html 使用Python 進行簡單文字類資料分析，包括： 1. 分詞 2. 生成語料庫，tfidf加權 3. lda主題提取模型 4. 詞向量化word2vec

文字挖掘預處理之向量化與Hash Trick

在文字挖掘的分詞原理中，我們講到了文字挖掘的預處理的關鍵一步：“分詞”，而在做了分詞後，如果我們是做文字分類聚類，則後面關鍵的特徵預處理步驟有向量化或向量化的特例Hash Trick，本文我們就對向量化和特例Hash Trick預處理方法做一個總結。 1. 詞袋模型

文字處理-分詞、向量化、TF-IDF理論和實現

分詞在做文字挖掘的時候，首先要做的預處理就是分詞。英文單詞天然有空格隔開容易按照空格分詞，但是也有時候需要把多個單詞做為一個分詞，比如一些名詞如“New York”，需要做為一個詞看待。而中文由於沒有空格，分詞就是一個需要專門去解決的問題了。無論是英文還是中文，分詞的原理都是

用Python開始機器學習（5：文字特徵抽取與向量化） sklearn

http://blog.csdn.net/lsldd/article/details/41520953 假設我們剛看完諾蘭的大片《星際穿越》，設想如何讓機器來自動分析各位觀眾對電影的評價到底是“贊”（positive）還是“踩”（negative）呢？這類問題就屬於情感分析問題。這類問題處理的第一步，就是

【機器學習】文字資料的向量化(TF-IDF)---樣本集例項講解+python實現

1.文字資料的向量化1.1名詞解釋CF：文件集的頻率，是指詞在文件集中出現的次數DF：文件頻率，是指出現詞的文件數IDF：逆文件頻率，idf = log(N/(1+df))，N為所有文件的數目，為了相容df=0情況，將分母弄成1+df。TF：詞在文件中的頻率TF-IDF：TF

Spark中元件Mllib的學習14之從文字中讀取帶標籤的資料，生成帶label的向量

2.程式碼： /** * @author xubo * ref:Spark MlLib機器學習實戰 * more code:https://github

文字資料探勘-----詞向量

中文資料探勘的難點在於如何把文字變成計算機處理的向量，一個好的詞向量方法可以提升分類或者其他應用效果。我把自己接觸的詞向量技術總結一下，方便自己複習和其他感興趣的小夥伴交流學習。使用結巴或者其他中文分詞工具分完詞後就需要生成詞向量了，方便後期的資料探勘工作的展開。 &nb

Java實現從Html文字中提取純文字

1、應用場景：從一份html檔案中或從String（是html內容）中提取純文字，去掉網頁標籤； 2、程式碼一：replaceAll搞定 //從html中提取純文字 public static String StripHT(String strHt

《機器學習實戰》第2章閱讀筆記3 使用K近鄰演算法改進約會網站的配對效果—分步驟詳細講解1——資料準備：從文字檔案中解析資料（附詳細程式碼及註釋）

本篇使用的資料存放在文字檔案datingTestSet2.txt中，每個樣本資料佔據一行，總共有1000行。樣本主要包含以下3中特徵：（1）每年獲得飛行常客里程數（2）玩視訊遊戲所耗時間百分比（3）每週消費的冰淇淋公升數在使用分類器之前，需要將處理的檔案格式

簡單實現將介面返回的資料寫入文字，從文字讀取引數，實現介面引數自動化

import requestsimport jsonimport datetimeimport re# 需要測試的環境api_host = "192.168.10.XX:XXXX"#發貨寶登入 15023621999headers_null = { 'Content-Type' : 'applicati

從文字框新增陣列值並顯示在一個標籤

我是新來的和總是Stackoverflow,它幫助我總是與我的問題。請幫我拿我的問題我需要做它為我下週的考試。請幫我儘快。使用Visual Basic。我應該建立一個數組和一個整數字符串。整數字符串= =距離的名字。將會有兩個文字框,標籤和2按鈕。

使用get,post,httpclient三種方式向伺服器提交文字資料

/** * HTTP請求 * @author kesenhoo * */ public class HttpRequest { public static boolean sendXML(String path, String xml)throws Except

【GAN ZOO翻譯】StackGAN：Text to Photo-realistic Image Synthesis with Stacked GAN 使用堆疊的GAN從文字中生成照片一樣逼真的圖片

Han Zhang1, Tao Xu2, Hongsheng Li3, Shaoting Zhang4, Xiaogang Wang3, Xiaolei Huang2, Dimitris Metaxas1 1羅格斯大學 2裡海大學 3香港中文大學 4百度研究院

從文字中提取圖片路徑（java 解析富文字處理 img 標籤）

很多專案都需要到富文字來新增內容，就好比新聞啊，旅遊景點之類的，都需要使用富文字去新增資料，然而怎麼我這邊就發現了兩個問題怎樣將富文字的圖片的 src 獲取出來？方法一：利用正則表示式： public static List<String> getImgStr(String h

MATLAB小技：從文字資料第N行開始讀取

http://www.eetop.cn/blog/html/03/6503-23236.html 因為用ocnprint從Cadence匯出的文字資料中第一行會有留白，很多人介紹的方法都是手工刪除前面的空白或空白和文字。個人覺得比較麻煩。其實如果在MATLAB中可以用

文字向量化------從文字到向量

相關推薦