計算字串相似度的一些方法

阿新 • • 發佈：2018-12-12

產品出了一個奇怪的需求，想通過字串相似度取匹配城市= =（當然，最後證實通過字串相似度取判斷兩個字串是不是一個城市是不對的！！！）

這裡就記錄一下我計算字串(英文字串)相似度的方法吧～

參考文件：

Levenshtein

Levenshtein.hamming(str1, str2)

計算漢明距離。要求str1和str2必須長度一致。是描述兩個等長字串之間對應位置上不同字元的個數。

用法：
```
>>> import Levenshtein     
>>> Levenshtein.hamming('abc', 'cba')
2
>>> Levenshtein. 
hamming('abc', 'def')
3
```
Levenshtein.distance(str1, str2)

計算編輯距離（也成Levenshtein距離）。是描述由一個字串轉化成另一個字串最少的操作次數，在其中的操作包括插入、刪除、替換。

用法：
```
>>> Levenshtein.distance('abc', 'ab')
1
>>> Levenshtein.distance('cxy', 'ab')
3
```
Levenshtein.ratio(str1, str2)

計算萊文斯坦比。計算公式 r = (sum - ldist) / sum, 其中sum是指str1 和 str2 字串的長度總和，ldist是類編輯距離

注意：這裡的類編輯距離不是Levenshtein.distance(str1, str2)所說的編輯距離，Levenshtein.distance(str1, str2)中三種操作中每個操作+1，而在此處，刪除、插入依然+1，但是替換+2 這樣設計的目的：ratio(‘a’, ‘c’)，sum=2,按2中計算為（2-1）/2 = 0.5,’a’,'c’沒有重合，顯然不合算，但是替換操作+2，就可以解決這個問題。

用法：
```
>>> Levenshtein.ratio('a,cdsf', 'abcd')		      
0.6
```

difflib

我主要用的是SequenceMatcher

，因此，本次只介紹SequenceMatcher.

SequenceMatcher是可以對兩個可序列化的物件進行比較的類

官網上的用法是：

>>> s = SequenceMatcher(lambda x: x == " ",
   ...                     "private Thread currentThread;",
   ...                     "private volatile Thread currentThread;")
   >>> print(round(s.ratio(), 3))
   0.866

第一個引數為一個函式，主要用來去掉自己不想算在內的元素；如果沒有，可以寫`None`
後面兩個引數就是需要比較的兩個物件了

餘弦定理

通過閱讀上面的文章，我們可以簡單總結計算相似度的幾個步驟：

列出所有出現的字母，並分別統計兩個字串出現這些字母的次數。這裡我是這樣寫的，利用from collections import Counter, OrderedDict

方法：

>>> from collections import Counter, OrderedDict
>>> from copy import deepcopy
>>> a = 'abc'
>>> b = 'bcde'
>>> item = set(a) | set(b)
>>> item
{'b', 'c', 'e', 'd', 'a'}
>>> model = OrderedDict().fromkeys(item)
>>> model
OrderedDict([('b', None), ('c', None), ('e', None), ('d', None), ('a', None)])
>>> model1 = deepcopy(model)
>>> model2 = deepcopy(model)
>>> model1.update(Counter(a))
>>> model1
OrderedDict([('b', 1), ('c', 1), ('e', None), ('d', None), ('a', 1)])
>>> model2.update(Counter(b))
>>> model2
OrderedDict([('b', 1), ('c', 1), ('e', 1), ('d', 1), ('a', None)])

這樣寫的原因是，在比較詞頻的時候，要保證每個字母的順序是一樣的～

利用餘弦公式計算相似度

方法：

>>> import math
>>> sum = 0	#分子
>>> q1 = 0	#分母
>>> q2 = 0	#分母
>>> for i in item:
		a = model1[i] if type(model1[i]) != type(None) else 0
		b = model2[i] if type(model2[i]) != type(None) else 0
		sum += a * b
		q1 += pow(a, 2)
		q2 += pow(b, 2)
>>> sum
2
>>> q1
3
>>> q2
4
>>> result = float(sum) / (math.sqrt(q1) * math.sqrt(q2))
>>> result
0.5773502691896258

這樣就算出相似度啦～

ps：本文說的計算的字串，全是英文字串～～

計算字串相似度的一些方法

產品出了一個奇怪的需求，想通過字串相似度取匹配城市= =（當然，最後證實通過字串相似度取判斷兩個字串是不是一個城市是不對的！！！）這裡就記錄一下我計算字串(英文字串)相似度的方法吧～參考文件： L

LeetCode之計算字串相似度或編輯距離EditDistance

問題描述： /** * Given two words word1 and word2, find the minimum number of steps required to * convert word1 to word2. (each oper

java實現編輯距離演算法，計算字串相似度

這是Levenshtein Distance演算法的java實現，另外oracle 10g r2當中好像自帶了這樣的函式，utl_match包當中public class LD { /** * 計算向量距離 * Levenshtein Distan

計算字串相似度

問題描述：有兩個不同的字串，通過使用一套操作方法可以把兩個字串變成一樣的。例如： 1） "a" 和 "b" ==> 把a變成b，或把b變成a 變化了一次 2） "abc" 和 "ade" ==> 把bc變成de，或把de變成bc 變化了兩次

如何計算文字文件詞向量之間的相似度----一些概念與方法

在計算文字相似項發現方面，有以下一些可參考的方法。這些概念和方法會幫助我們開拓思路。相似度計算方面 Jaccard相似度：集合之間的Jaccard相似度等於交集大小與並集大小的比例。適合的應用包括文件文字相似度以及顧客購物習慣的相似度計算等。 Shingling

計算兩張圖片相似度的方法總結

title rac 相似度無法 tween hive any 明顯 embed python工具包－pyssim 簡介 python工具包，用來計算圖像之間的結構相似性 (Structural Similarity Image Metric: SSIM)。結構相似性介紹

計算文字相似度方法大全-簡單說

本編文章是方法論-主要給大家介紹原理思路簡單講解基於關鍵詞的空間向量模型的演算法，將使用者的喜好以文件描述並轉換成向量模型，對商品也是這麼處理，然後再通過計算商品文件和使用者偏好文件的餘弦相似度。文字相似度計算在資訊檢索、資料探勘、機器翻譯、文件複製檢測等領域

矩陣式比較兩文字字串相似度（包含漢字）方法兩則（java程式碼）

package com.gsww.ctyxy.util; import java.text.NumberFormat; import java.util.Locale; /** * 比較兩個字串的相似度 */ public class AutomaticRating { /* pu

計算兩個字串相似度的演算法

該方法是使用的Levenshtein演算法的一個實現。簡單介紹下Levenshtein Distance(LD)：LD 可能衡量兩字串的相似性。它們的距離就是一個字串轉換成那一個字串過程中的新增、刪除、修改數值。舉例：如果str1="test"，st

【轉載】機器學習計算距離和相似度的方法

3. 向量內積向量內積是線性代數裡最為常見的計算，實際上它還是一種有效並且直觀的相似性測量手段。向量內積的定義如下：直觀的解釋是：如果 x 高的地方 y 也比較高， x 低的地方 y 也比較低，那麼整體的內積是偏大的，也就是說 x 和 y 是相似的。舉個例子，在一段長的序列訊號 A 中尋找哪一段與短序

C字串相似度計算

#region 計算相似度 /// <summary> /// 取最小的一位數 /// </summary> /// <param name="first"><

判斷兩字串相似度

/** * <h5>功能:判斷兩字串相似度(最小為0,最大為1)</h5> * * @param strOne * @param strTwo * @return 兩字串相似度(最小為0,最大為1) */ public static double SimlaritySt

字串相似度演算法

字串相似度演算法一、百度百科二、用途三、實現過程四、JAVA程式碼實現五、原理六、結束語一、百度百科 Levenshtein 距離，又稱編輯距離，指的是兩個字串之間，由一個轉換

相似度的方法

二、歐幾里得距離幾個資料集之間的相似度一般是基於每對物件間的距離計算，最常用的是歐幾里德距離： #-*-coding:utf-8 -*-#計算歐幾里德距離：def euclidean(p,q):#如果兩資料集數目不同，計算兩者之間都對應有的數same = 0for i in p: if i in q:

用gensim doc2vec計算文字相似度，Python可以跑通的程式碼

Python3.7版本，轉載自：https://blog.csdn.net/juanjuan1314/article/details/75124046 wangyi_title.txt檔案下載地址：連結:https://pan.baidu.com/s/1uL75P13t98YHMqgv3Kx7T

簡單的字串相似度匹配加排序

今天遇到一個問題，需要將一組字串，跟結果需要的字串相比較，根據相似性排列出來，思考了一個下午，想了一個簡易的匹配演算法，寫出程式碼的時候下班了，回家除錯了幾次後就成功了，特此將該演算法寫出來。思路：將一組字串儲存到list中，用兩個for迴圈，先

python比較字串相似度

python自帶比較相似度的模組，difflib。比較兩個字串的模組是difflib.SequenceMatcher，使用起來很簡單： import difflibdef string_similar(s1, s2): return difflib.SequenceMatcher(None,

Java程式碼實現餘弦相似度演算法比較兩字串相似度

因工作需要比較兩個兩個字串的相似度比較，由於最短編輯距離演算法不符合需求，就又找其他演算法，在網上看到了另一個演算法：餘弦相似度演算法。於是學習了一下，並寫篇部落格儲存，以便學習以及日後用到。程式碼如下: import java.util.HashMap im

字串相似度演算法（編輯距離演算法 Levenshtein Distance）

在搞驗證碼識別的時候需要比較字元程式碼的相似度用到“編輯距離演算法”，關於原理和C#實現做個記錄。據百度百科介紹：編輯距離，又稱Levenshtein距離（也叫做Edit Distance），是指兩個字串之間，由一個轉成另一個所需的最少編輯操作次數，如果它們的距離越大，說明它們越是不同。許可

DSSM演算法-計算文字相似度

轉載請註明出處： http://blog.csdn.net/u013074302/article/details/76422551 導語在NLP領域，語義相似度的計算一直是個難題：搜尋場景下query和Doc的語義相似度、feeds場景下Doc和Doc的語義相似度、機器翻譯場景下A句

計算字串相似度的一些方法

Levenshtein

difflib

餘弦定理

相關推薦