pythonNLP-文字相似度計算-Demo

阿新 • • 發佈：2019-01-30

參照部落格[我愛自然語言處理]裡面的如何計算兩個文字的相似度系列，把程式碼自己實現了一遍，對整個流程有了瞭解。純屬個人記錄，新手想學習可直接去上面的部落格學習，講的非常好。

程式碼

#-*- coding:utf-8
import gensim
from gensim import corpora, models, similarities
import traceback


documents = [ "Shipment of gold damaged in a fire",
              "Delivery of silver arrived in a silver truck" 
,
              "Shipment of gold arrived in a truck"]

'''
@:return:texts是token_list,只要我生成了token_list，給它就行了
'''
def pre_process( documents ):
    try:

        documents_token_list = [ [word for word in document.lower().split() ] for document in documents ]

        print "[INFO]: pre_process is finished!" 

        return documents_token_list

    except Exception,e:
        print traceback.print_exc()

'''
這個函式是比較通用的，可以跟我自己寫的結合。
這個是根據document[ token_list ]來訓練tf_idf模型的
@texts: documents = [ document1, document2, ... ] document1 = token_list1
@return: dictionary 根據texts建立的vsm空間，並且記錄了每個詞的位置，和我的實現一樣，對於vsm空間每個詞，你要記錄他的位置。否則，文件生成vsm空間的時候，每個詞無法找到自己的位置
@return: corpus_idf 每篇document在vsm上的tf-idf表示.但是他的輸出和我的不太一樣，我的輸出就是單純的vsm空間中tf-idf的值，但是它的空間裡面不是。還有位置資訊在。並且輸出的時候，看到的好像沒有值為0的向量，但是vsm向量的空間是一樣的。所以，我覺得應該是隻輸出了非0的。

這兩個返回值和我的都不一樣，因為字典(vsm)以及corpus_idf(vsm)都輸出了位置資訊。
但是這兩個資訊，可以快速生成lda和lsi模型

''' 

def tf_idf_trainning(documents_token_list):
    try:

        # 將所有文章的token_list對映為 vsm空間
        dictionary = corpora.Dictionary(documents_token_list)

        # 每篇document在vsm上的tf表示
        corpus_tf = [ dictionary.doc2bow(token_list) for token_list in documents_token_list ]

        # 用corpus_tf作為特徵，訓練tf_idf_model
        tf_idf_model = models.TfidfModel(corpus_tf)

        # 每篇document在vsm上的tf-idf表示
        corpus_tfidf = tf_idf_model[corpus_tf]

        print "[INFO]: tf_idf_trainning is finished!"
        return dictionary, corpus_tf, corpus_tfidf

    except Exception,e:
        print traceback.print_exc()

def lsi_trainning( dictionary, corpus_tfidf, K ):
    try:

        # 用tf_idf作為特徵，訓練lsi模型
        lsi_model = models.LsiModel( corpus_tfidf, id2word=dictionary, num_topics = K )

        # 每篇document在K維空間上表示
        corpus_lsi = lsi_model[corpus_tfidf]

        print "[INFO]: lsi_trainning is finished!"
        return lsi_model, corpus_lsi

    except Exception,e:
        print traceback.print_exc()

def lda_trainning( dictionary, corpus_tfidf, K ):
    try:

        # 用corpus_tf作為特徵，訓練lda_model
        lda_model = models.LdaModel( corpus_tfidf, id2word=dictionary, num_topics = K )

        # 每篇document在K維空間上表示
        corpus_lda = lda_model[corpus_tfidf]
        for aa in corpus_lda:
            print aa

        print "[INFO]: lda_trainning is finished!"
        return lda_model, corpus_lda

    except Exception,e:
        print traceback.print_exc()

def similarity( query, dictionary, corpus_tf, lda_model ):
    try:

        # 建立索引
        index = similarities.MatrixSimilarity( lda_model[corpus_tf] )

        # 在dictionary建立query的vsm_tf表示
        query_bow = dictionary.doc2bow( query.lower().split() )

        # 查詢在K維空間的表示
        query_lda = lda_model[query_bow]

        # 計算相似度
        simi = index[query_lda]
        query_simi_list = [ item for _, item in enumerate(simi) ]
        print query_simi_list

    except Exception,e:
        print traceback.print_exc()




documents_token_list = pre_process(documents)
dict, corpus_tf, corpus_tfidf = tf_idf_trainning(documents_token_list)
#lsi_trainning(corpus_tfidf, dict, 2)
lda_model, corpus_lda = lda_trainning(dict, corpus_tfidf, 2)

similarity( "Shipment of gold arrived in a truck", dict, corpus_tf, lda_model )

程式碼

#-*- coding:utf-8
from gensim import corpora, models, similarities
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords
from nltk.stem.lancaster import LancasterStemmer
import traceback

'''
------------------------------------------------------------
函式宣告
'''

# 預處理
def pre_process(PATH):
    try:

        # 課程資訊
        courses = [ line.strip() for line in file(PATH) ]
        courses_copy = courses
        courses_name = [ course.split('\t')[0] for course in courses ]

        # 分詞-轉化小寫
        texts_tokenized = [[word.lower() for word in word_tokenize(document.decode("utf-8"))] for document in courses]

        # 去除停用詞
        english_stopwords = stopwords.words('english')
        texts_filtered_stopwords = [ [ word for word in document if word not in english_stopwords ] for document in texts_tokenized ]

        # 去除標點符號
        english_punctuations = [',', '.',  ':', ';', '?', '(', ')', '[', ']', '&', '!', '*', '@', '#', '$', '%']
        texts_filterd = [ [ word for word in document if word not in english_punctuations ] for document in texts_filtered_stopwords ]

        # 詞幹化
        st = LancasterStemmer()
        texts_stemmed = [ [ st.stem(word) for word in document ] for document in texts_filterd ]
        #print texts_stemmed[0]

        # 去除低頻詞
        all_stems = sum(texts_stemmed, [])
        stem_once = set( stem for stem in set(all_stems) if all_stems.count(stem) == 1 )
        texts = [ [ word for word in text if word not in stem_once ] for text in texts_stemmed]

        print "[INFO]: pre_process is finished!"
        return texts, courses_copy, courses_name


    except Exception,e:
        print traceback.print_exc()

# 訓練tf_idf模型
def tf_idf_trainning(documents_token_list):
    try:

        # 將所有文章的token_list對映為 vsm空間
        dictionary = corpora.Dictionary(documents_token_list)

        # 每篇document在vsm上的tf表示
        corpus_tf = [ dictionary.doc2bow(token_list) for token_list in documents_token_list ]

        # 用corpus_tf作為特徵，訓練tf_idf_model
        tf_idf_model = models.TfidfModel(corpus_tf)

        # 每篇document在vsm上的tf-idf表示
        corpus_tfidf = tf_idf_model[corpus_tf]

        print "[INFO]: tf_idf_trainning is finished!"
        return dictionary, corpus_tf, corpus_tfidf

    except Exception,e:
        print traceback.print_exc()

# 訓練lsi模型
def lda_trainning( dictionary, corpus_tfidf, K ):
    try:

        # 用corpus_tf作為特徵，訓練lda_model
        lda_model = models.LdaModel( corpus_tfidf, id2word=dictionary, num_topics = K )

        # 每篇document在K維空間上表示
        corpus_lda = lda_model[corpus_tfidf]

        print "[INFO]: lda_trainning is finished!"
        return lda_model, corpus_lda

    except Exception,e:
        print traceback.print_exc()

# 基於lda模型的相似度計算
def similarity( query, dictionary, corpus_tf, lda_model ):
    try:

        # 建立索引
        index = similarities.MatrixSimilarity( lda_model[corpus_tf] )

        # 在dictionary建立query的vsm_tf表示
        query_bow = dictionary.doc2bow( query.lower().split() )

        # 查詢在K維空間的表示
        query_lda = lda_model[query_bow]

        # 計算相似度
        simi = index[query_lda]
        sort_simi = sorted(enumerate(simi), key=lambda item: -item[1])
        print sort_simi[0:10]

    except Exception,e:
        print traceback.print_exc()


'''
------------------------------------------------------------
常量定義
'''

PATH = "../../data/coursera/coursera_corpus"
number_of_topics = 10

'''
------------------------------------------------------------
'''

texts, courses, courses_name = pre_process(PATH)
dict, corpus_tf, corpus_tfidf = tf_idf_trainning(texts)
lda_model, corpus_lda = lda_trainning( dict, corpus_tf, number_of_topics )

similarity(courses[210], dict, corpus_tf, lda_model)

pythonNLP-文字相似度計算-Demo

參照部落格[我愛自然語言處理]裡面的如何計算兩個文字的相似度系列，把程式碼自己實現了一遍，對整個流程有了瞭解。純屬個人記錄，新手想學習可直接去上面的部落格學習，講的非常好。程式碼 #-*- coding:utf-8 import gensim fr

nlp中文字相似度計算問題

文章的目的：文字相似度計算一直是nlp中常見的問題，本文的目標是總結並對比文字相似度計算方法。當然文字的相似度計算會有進一步的應用，比如文字的分類、聚類等。文章結構：本文先介紹最直接的字面距離相似度度量，而後介紹語義主題層面的度量，最後介紹目前一些新的相似度計算方法。一、字面距

基於神經網路的文字相似度計算【醫療大資料】

任務描述問句匹配是自然語言處理的最基本任務之一，是自動問答，聊天機器人，資訊檢索，機器翻譯等各種自然語言處理任務基礎。問句匹配的主要目的是判斷兩個問句之間的語義是否等價。判別標準主要根據主句（即提問者）所蘊含的意圖來判斷兩個語句是否等價，而不直接判斷兩個語句是否表達相

Python 文字挖掘：使用gensim進行文字相似度計算

index = similarities.MatrixSimilarity(corpus_tfidf)#把所有評論做成索引 sims = index[vec_tfidf]#利用索引計算每一條評論和商品描述之間的相似度 similarity = list(sims)#把相似度儲存成陣列，以便寫入txt 文件

word2vec詞向量訓練及中文文字相似度計算

本文是講述如何使用word2vec的基礎教程，文章比較基礎，希望對你有所幫助！官網C語言下載地址：http://word2vec.googlecode.com/svn/trunk/官網Python下載地址：http://radimrehurek.com/gensim/mod

文字相似度計算的幾個距離公式（歐氏距離、餘弦相似度、Jaccard距離、編輯距離）

本文主要講一下文字相似度計算的幾個距離公式，主要包括：歐氏距離、餘弦相似度、Jaccard距離、編輯距離。距離計算在文字很多場景下都可以用到，比如：聚類、K近鄰、機器學習中的特徵、文字相似度等等。接下來就一一介紹一下：假設兩個文字X=(x1, x2, x3,...xn)

解析TF-IDF演算法原理：關鍵詞提取，自動摘要，文字相似度計算

Abstract：TF-IDF演算法是一種常用的詞頻統計方法，常被用於關鍵詞提取、文字摘要、文章相似度計算等。 TF-IDF的演算法思路 TF詞頻（Text Frequency）：統計出現次數最多的詞 IDF逆文件頻率（Inverse Document Frequ

Google開源word2vec，文字相似度計算工具

谷歌已經使用Deep Learning技術開發了許多新方法來解析語言，目前，谷歌開源了一款基於Deep Learning的學習工具——word2vec，這是首款面向大眾的Deep Learning學習工具。 word2vec（word to vector）顧名思義，這是

螞蟻金服金融大腦的挑戰賽的實現程式碼 NLP文字相似度計算

近期做了一些NLP的研究，並基於6月份螞蟻金服金融大腦的挑戰賽，完成了文字相似度計算的驗證。主要思路是基於word2vec來進行訓練，並實現文字相似度的計算。所使用的語料，包括了公開的wiki語料，網友收集的微信語料，以及此大賽中的語料。其中微信語料的位置在https://s

文字相似度計算之餘弦定理

前言餘弦相似度，又稱為餘弦相似性，是通過計算兩個向量的夾角餘弦值來評估他們的相似度。餘弦相似度將向量根據座標值，繪製到向量空間中。用向量空間中兩個向量夾角的餘弦值作為衡量兩個個體間差異的大小。餘弦值越接近1，就表明夾角越接近0度，也就是兩個向量越相似，反之越接近0就表示兩個向量相似度越低，這就叫"餘弦

計算句子文字相似度－編輯距離計算

本文轉載於：https://juejin.im/post/5b237b45f265da59a90c11d6 編輯距離，英文叫做 Edit Distance，又稱 Levenshtein 距離，是指兩個字串之間，由一個轉成另一個所需的最少編輯操作次數，如果它們的距離越大，說明它們越是不同。

用gensim doc2vec計算文字相似度，Python可以跑通的程式碼

Python3.7版本，轉載自：https://blog.csdn.net/juanjuan1314/article/details/75124046 wangyi_title.txt檔案下載地址：連結:https://pan.baidu.com/s/1uL75P13t98YHMqgv3Kx7T

Doc2Vec計算句子文件向量、求文字相似度

注：本文主要是記錄自己常用的關於Doc2Vec的簡單程式程式碼。因此不做過多的解釋，直接寫出程式碼，如有問題可以討論交流。一、doc2vec求文件向量 import sys import numpy as np import gensim from gensim.mod

DSSM演算法-計算文字相似度

轉載請註明出處： http://blog.csdn.net/u013074302/article/details/76422551 導語在NLP領域，語義相似度的計算一直是個難題：搜尋場景下query和Doc的語義相似度、feeds場景下Doc和Doc的語義相似度、機器翻譯場景下A句

計算文字相似度方法大全-簡單說

本編文章是方法論-主要給大家介紹原理思路簡單講解基於關鍵詞的空間向量模型的演算法，將使用者的喜好以文件描述並轉換成向量模型，對商品也是這麼處理，然後再通過計算商品文件和使用者偏好文件的餘弦相似度。文字相似度計算在資訊檢索、資料探勘、機器翻譯、文件複製檢測等領域

用gensim doc2vec計算文字相似度

最近開始接觸gensim庫，之前訓練word2vec用Mikolov的c版本程式，看了很久才把程式看明白，在gensim庫中，word2vec和doc2vec只需要幾個介面就可以實現，實在是方便。python，我越來越愛你了。這個程式很簡單，直接上程式了。 # codin

python實現機器學習中的各種距離計算及文字相似度演算法

在自然語言處理以及機器學習的分類或者聚類中會涉及到很多距離的使用，各種距離的概念以及適用範圍請自行百度或者參考各種距離 import numpy as np import math # 依賴包numpy、python-Levenshtein、scipy

lucene計算文字相似度演算法

Leveraging term vectors 所謂term vector, 就是對於documents的某一field,如title,body這種文字型別的, 建立詞頻的多維向量空間.每一個詞就是一維, 這維的值就是這個詞在這個field中的頻率.

NLP點滴——文字相似度，計算文字間的距離

前言在自然語言處理過程中，經常會涉及到如何度量兩個文字之間的相似性，我們都知道文字是一種高維的語義空間，如何對其進行抽象分解，從而能夠站在數學角度去量化其相似性。而有了文字之間相似性的度量方式，我們便可以利用劃分法的K-means、基於密度的DBSCAN或者是基於模型的概率方法進行文字之間的聚類分析；另

simhash計算文字相似度

轉自http://www.lanceyan.com/tech/arch/simhash_hamming_distance_similarity.html 通過採集系統我們採集了大量文字資料，但是文字中有很多重複資料影響我們對於結果的分析。分析前我們需要對這些資料去除

pythonNLP-文字相似度計算-Demo

程式碼

程式碼

相關推薦