文字相似度和分類

阿新 • • 發佈：2018-11-16

文字相似度

度量文字間的相似性
使用詞頻表示文字特徵
文字中單詞出現的頻率或次數
NLTK實現詞頻統計

文字相似度案例：

import nltk
from nltk import FreqDist

text1 = 'I like the movie so much '
text2 = 'That is a good movie '
text3 = 'This is a great one '
text4 = 'That is a really bad movie '
text5 = 'This is a terrible movie'

text = text1 + text2 + text3 + text4 + text5
words  
= nltk.word_tokenize(text)
freq_dist = FreqDist(words)
print(freq_dist['is'])
# 輸出結果：
# 4


# 取出常用的n=5個單詞
n = 5
# 構造“常用單詞列表”
most_common_words = freq_dist.most_common(n)
print(most_common_words)
# 輸出結果：
# [('a', 4), ('movie', 4), ('is', 4), ('This', 2), ('That', 2)]



def lookup_pos(most_common_words):
     
"""
        查詢常用單詞的位置
    """
    result = {}
    pos = 0
    for word in most_common_words:
        result[word[0]] = pos
        pos += 1
    return result

# 記錄位置
std_pos_dict = lookup_pos(most_common_words)
print(std_pos_dict)
# 輸出結果：
# {'movie': 0, 'is': 1, 'a': 2, 'That': 3, 'This': 4}


# 新文字
new_text = ' 
That one is a good movie. This is so good!'
# 初始化向量
freq_vec = [0] * n
# 分詞
new_words = nltk.word_tokenize(new_text)

# 在“常用單詞列表”上計算詞頻
for new_word in new_words:
    if new_word in list(std_pos_dict.keys()):
        freq_vec[std_pos_dict[new_word]] += 1

print(freq_vec)
# 輸出結果：
# [1, 2, 1, 1, 1]

文字分類

TF-IDF （詞頻-逆文件頻率）

TF, Term Frequency（詞頻），表示某個詞在該檔案中出現的次數
IDF，Inverse Document Frequency（逆文件頻率），用於衡量某個詞普遍的重要性。
TF-IDF = TF * IDF

舉例假設:

一個包含100個單詞的文件中出現單詞cat的次數為3，則TF=3/100=0.03

樣本中一共有10,000,000個文件，其中出現cat的文件數為1,000個，則IDF=log(10,000,000/1,000)=4

TF-IDF = TF IDF = 0.03 4 = 0.12

NLTK實現TF-IDF

TextCollection.tf_idf()

案例：

from nltk.text import TextCollection

text1 = 'I like the movie so much '
text2 = 'That is a good movie '
text3 = 'This is a great one '
text4 = 'That is a really bad movie '
text5 = 'This is a terrible movie'

# 構建TextCollection物件
tc = TextCollection([text1, text2, text3, 
                        text4, text5])
new_text = 'That one is a good movie. This is so good!'
word = 'That'
tf_idf_val = tc.tf_idf(word, new_text)
print('{}的TF-IDF值為：{}'.format(word, tf_idf_val))

執行結果：

That的TF-IDF值為：0.02181644599700369

文字相似度和分類

文字相似度度量文字間的相似性使用詞頻表示文字特徵文字中單詞出現的頻率或次數 NLTK實現詞頻統計文字相似度案例： import nltk from nltk import FreqDist text1 = 'I like the movie so much ' te

使用jieba和gensim模組判斷文字相似度

原文： https://www.jianshu.com/p/cb978743f4d4 碎冰op 判斷文字的相似度在很多地方很有用，比如在爬蟲中判斷多篇已爬取的文章是否相似，只對不同文章進一步處理可以大大提高效率。在Python中，可以使用gensim模組來判斷長

計算句子文字相似度－編輯距離計算

本文轉載於：https://juejin.im/post/5b237b45f265da59a90c11d6 編輯距離，英文叫做 Edit Distance，又稱 Levenshtein 距離，是指兩個字串之間，由一個轉成另一個所需的最少編輯操作次數，如果它們的距離越大，說明它們越是不同。

文字相似度bm25演算法的原理以及Python實現(jupyter notebook)

今天我們一起來學習一下自然語言處理中的bm25演算法，bm25演算法是常見的用來計算query和文章相關度的相似度的。其實這個演算法的原理很簡單，就是將需要計算的query分詞成w1，w2，…，wn，然後求出每一個詞和文章的相關度，最後將這些相關度進行累加，最終就可以的得到文字相似度計算

用gensim doc2vec計算文字相似度，Python可以跑通的程式碼

Python3.7版本，轉載自：https://blog.csdn.net/juanjuan1314/article/details/75124046 wangyi_title.txt檔案下載地址：連結:https://pan.baidu.com/s/1uL75P13t98YHMqgv3Kx7T

NLP文字相似度(TF-IDF)

我們在比較事物時，往往會用到“不同”，“一樣”，“相似”等詞語，這些詞語背後都涉及到一個動作——雙方的比較。只有通過比較才能得出結論，究竟是相同還是不同。但是萬物真的有這麼極端的區分嗎？在我看來不是的，生活中通過“相似度”這詞來描述可能會更加準確。比如男人和女人，雖然生理器官和可能思想有

文字相似度

前言在自然語言處理過程中，經常會涉及到如何度量兩個文字之間的相似性，我們都知道文字是一種高維的語義空間，如何對其進行抽象分解，從而能夠站在數學角度去量化其相似性。而有了文字之間相似性的度量方式，我們便可以利用劃分法的K-means、基於密度的DBSCAN或者是基於模型的概率

python 文字相似度分析doc2bow

步驟: 1、讀取文件 2、對要計算的多篇文件進行分詞 3、對文件進行整理成指定的格式,方便後續進行計算 4、計算出詞語進行過濾 5、可選，對頻率低的詞語進行過濾 6、通過語料庫建立詞典 7、載入要對比的文件 8、將要對比的文件通過doc2bow轉換為稀疏向量 9、對稀疏向量進行進一步處理，得到新語料

nlp中文字相似度計算問題

文章的目的：文字相似度計算一直是nlp中常見的問題，本文的目標是總結並對比文字相似度計算方法。當然文字的相似度計算會有進一步的應用，比如文字的分類、聚類等。文章結構：本文先介紹最直接的字面距離相似度度量，而後介紹語義主題層面的度量，最後介紹目前一些新的相似度計算方法。一、字面距

學習筆記--NLP文字相似度之LCS（最長公共子序列）

最長公共子序列一個序列S任意刪除若干個字元得到的新序列T，則T叫做S的子序列兩個序列X和Y的公共子序列中，長度最長的那個，定義為X和Y的最長公共子序列例如： --字串12455與245576的最長公共子序列為2455 --字串acd

基於神經網路的文字相似度計算【醫療大資料】

任務描述問句匹配是自然語言處理的最基本任務之一，是自動問答，聊天機器人，資訊檢索，機器翻譯等各種自然語言處理任務基礎。問句匹配的主要目的是判斷兩個問句之間的語義是否等價。判別標準主要根據主句（即提問者）所蘊含的意圖來判斷兩個語句是否等價，而不直接判斷兩個語句是否表達相

文字相似度分析

1 演算法小結相信有些人在閒暇時間喜歡讀小說，至於什麼小說在這就不一而論了。就拿我來說最近讀的“一寸山河一寸血”和“混在三國當軍閥”這兩本書，本人感覺很相似，但具體相似多少就需要量化，因此想通過電腦來分析一下。接下來就不廢話直接上原理和具體演算法。用到

Doc2Vec計算句子文件向量、求文字相似度

注：本文主要是記錄自己常用的關於Doc2Vec的簡單程式程式碼。因此不做過多的解釋，直接寫出程式碼，如有問題可以討論交流。一、doc2vec求文件向量 import sys import numpy as np import gensim from gensim.mod

DSSM演算法-計算文字相似度

轉載請註明出處： http://blog.csdn.net/u013074302/article/details/76422551 導語在NLP領域，語義相似度的計算一直是個難題：搜尋場景下query和Doc的語義相似度、feeds場景下Doc和Doc的語義相似度、機器翻譯場景下A句

文字相似度-詞袋模型

1、詞袋模型將兩篇文字通過詞袋模型變為向量模型，通過計算向量的餘弦距離來計算兩個文字間的相似度。詞袋模型的缺點：詞袋模型最重要的是構造詞表，然後通過文字為詞表中的詞賦值，但詞袋模型嚴重缺乏相

python資料分析-文字相似度分析

由於本文設計較多知識點，在編寫程式碼之前需要搞清楚這些知識點的含義。 1。知識點解釋 Gensim是一款開源的第三方Python工具包，用於從原始的非結構化的文字中，無監督地學習到文字隱層的主

Python 文字挖掘：使用gensim進行文字相似度計算

index = similarities.MatrixSimilarity(corpus_tfidf)#把所有評論做成索引 sims = index[vec_tfidf]#利用索引計算每一條評論和商品描述之間的相似度 similarity = list(sims)#把相似度儲存成陣列，以便寫入txt 文件

【NLP】Python例項：基於文字相似度對申報專案進行查重設計

作者：白寧超 2017年5月18日17:51:37 摘要：關於查重系統很多人並不陌生，無論本科還是碩博畢業都不可避免涉及論文查重問題，這也對學術不正之風起到一定糾正作用。單位主要針對科技專案申報稽核，傳統的方式人力物力比較大，且伴隨季度性的繁重工作，效率不高。基於此，單位覺得開發一款可以達到實用的

計算文字相似度方法大全-簡單說

本編文章是方法論-主要給大家介紹原理思路簡單講解基於關鍵詞的空間向量模型的演算法，將使用者的喜好以文件描述並轉換成向量模型，對商品也是這麼處理，然後再通過計算商品文件和使用者偏好文件的餘弦相似度。文字相似度計算在資訊檢索、資料探勘、機器翻譯、文件複製檢測等領域

word2vec詞向量訓練及中文文字相似度計算

本文是講述如何使用word2vec的基礎教程，文章比較基礎，希望對你有所幫助！官網C語言下載地址：http://word2vec.googlecode.com/svn/trunk/官網Python下載地址：http://radimrehurek.com/gensim/mod

文字相似度和分類

文字相似度

文字相似度案例：

文字分類

TF-IDF （詞頻-逆文件頻率）

案例：

相關推薦