計算兩個字串相似度的演算法

阿新 • • 發佈：2019-02-05

該方法是使用的Levenshtein演算法的一個實現。

簡單介紹下Levenshtein Distance(LD)：LD 可能衡量兩字串的相似性。它們的距離就是一個字串轉換成那一個字串過程中的新增、刪除、修改數值。

舉例：

如果str1="test"，str2="test"，那麼LD(str1,str2) = 0。沒有經過轉換。
如果str1="test"，str2="tent"，那麼LD(str1,str2) = 1。str1的"s"轉換"n"，轉換了一個字元，所以是1。

如果它們的距離越大，說明它們越是不同。

Levenshtein distance最先是由俄國科學家Vladimir Levenshtein在1965年發明，用他的名字命名。不會拼讀，可以叫它edit distance（編輯距離）。

Levenshtein distance可以用來：

Spell checking(拼寫檢查)
Speech recognition(語句識別)
DNA analysis(DNA分析)
Plagiarism detection(抄襲檢測)

LD用m*n的矩陣儲存距離值。演算法大概過程：

str1或str2的長度為0返回另一個字串的長度。
初始化(n+1)*(m+1)的矩陣d，並讓第一行和列的值從0開始增長。
掃描兩字串（n*m級的），如果：str1[i] == str2[j]，用temp記錄它，為0。否則temp記為1。然後在矩陣d[i][j]賦於d[i-1][j]+1 、d[i][j-1]+1、d[i-1][j-1]+temp三者的最小值。

掃描完後，返回矩陣的最後一個值即d[n][m]

最後返回的是它們的距離。怎麼根據這個距離求出相似度呢？因為它們的最大距離就是兩字串長度的最大值。對字串不是很敏感。現我把相似度計算公式定為1-它們的距離/字串長度最大值。

public static float similarity(String str1, String str2) {
		
		//計算兩個字串的長度。
		int len1 = str1.length();
		int len2 = str2.length();
		//建立陣列，比字元長度大一個空間
		int[][] dif = new int[len1 + 1][len2 + 1];
		//賦初值，步驟B。
		for (int a = 0; a <= len1; a++) {
			dif[a][0] = a;
		}
		for (int a = 0; a <= len2; a++) {
			dif[0][a] = a;
		}
		//計算兩個字元是否一樣，計算左上的值
		int temp;
		for (int i = 1; i <= len1; i++) {
			for (int j = 1; j <= len2; j++) {
				if (str1.charAt(i - 1) == str2.charAt(j - 1)) {
					temp = 0;
				} else {
					temp = 1;
				}
				//取三個值中最小的
				dif[i][j] = min(dif[i - 1][j - 1] + temp, dif[i][j - 1] + 1,
						dif[i - 1][j] + 1);
			}
		}
		return 1 - (float) dif[len1][len2] / Math.max(str1.length(), str2.length());
	}
	
	//得到最小值
	public static int min(int... is) {
		int min = Integer.MAX_VALUE;
		for (int i : is) {
			if (min > i) {
				min = i;
			}
		}
		return min;
	}

計算兩個字串相似度的演算法

該方法是使用的Levenshtein演算法的一個實現。簡單介紹下Levenshtein Distance(LD)：LD 可能衡量兩字串的相似性。它們的距離就是一個字串轉換成那一個字串過程中的新增、刪除、修改數值。舉例：如果str1="test"，st

演算法設計——計算兩個字串的匹配程度

問題描述已知兩個字串，計算這兩個字串的匹配程度，如果字串完全一樣則輸出1，如果字串沒有一個字母相同則輸出0，否則利用公式：(max + max) / (len1+len2)計算匹配程度，其中max表示兩個字串對齊時最多可能對應相同的字母的個數，len分別表示這兩個字串的長度

編輯距離演算法詳述計算兩個字串差異 c++程式碼

編輯距離即從一個字串變換到另一個字串所需要的最少變化操作步驟（以字元為單位，如son到sun，s不用變，將o->s,n不用變，故操作步驟為1）。為了得到編輯距離，我們畫一張二維表來理解，以beauty和batyu為例：圖示如1單元格位置即是兩個單詞的第一個字元[b]比較得到的值,其值由它上方的

計算兩張圖片相似度的方法總結

title rac 相似度無法 tween hive any 明顯 embed python工具包－pyssim 簡介 python工具包，用來計算圖像之間的結構相似性 (Structural Similarity Image Metric: SSIM)。結構相似性介紹

字串相似度演算法

字串相似度演算法一、百度百科二、用途三、實現過程四、JAVA程式碼實現五、原理六、結束語一、百度百科 Levenshtein 距離，又稱編輯距離，指的是兩個字串之間，由一個轉換

字串相似度演算法（編輯距離演算法 Levenshtein Distance）

在搞驗證碼識別的時候需要比較字元程式碼的相似度用到“編輯距離演算法”，關於原理和C#實現做個記錄。據百度百科介紹：編輯距離，又稱Levenshtein距離（也叫做Edit Distance），是指兩個字串之間，由一個轉成另一個所需的最少編輯操作次數，如果它們的距離越大，說明它們越是不同。許可

（dijkstra）演算法計算兩個地鐵站最短距離演算法

前言最新更新了github。歡迎多評論+討論，共同努力。往後準備更新大資料和微服務的BLOG 由於專案需要計算兩個地鐵站之前最短距離及其線路流程。引發使用迪傑斯特拉演算法計算帶權值兩點之前最短距離。網上資料多用的是C++寫的演算法，在這裡用的是Java。實現的方

矩陣式比較兩文字字串相似度（包含漢字）方法兩則（java程式碼）

package com.gsww.ctyxy.util; import java.text.NumberFormat; import java.util.Locale; /** * 比較兩個字串的相似度 */ public class AutomaticRating { /* pu

C#：字串相似度演算法（ Levenshtein Distance演算法）

編輯距離，又稱Levenshtein距離（也叫做Edit Distance），是指兩個字串之間，由一個轉成另一個所需的最少編輯操作次數。許可的編輯操作包括將一個字元替換成另一個字元，插入一個字元，刪除一個字元。網上有很多關於此演算法的原始碼，但其中一些存在Bug，如百度搜索

計算兩個矩形IOU的演算法

float intersectRect(const cv::Rect& rectA, const cv::Rect& rectB, cv::Rect& intersectRect){ if (rectA.x > rectB.x + rectB

題目標題：計算兩個字串的最大公共字串的長度，字元不區分大小寫

private static int getMaxSame(String first0,String second0) { String first = first0.toLowerCase(); String second = second0.toLower

java中利用hanlp比較兩個文字相似度的步驟

使用 HanLP - 漢語言處理包來處理，他能處理很多事情，如分詞、呼叫分詞器、命名實體識別、人名識別、地名識別、詞性識別、篇章

iOS：使用萊文斯坦距離演算法計算兩串字串的相似度

static inline int min(int a, int b) { return a < b ? a : b; } +(float)likePercentByCompareOriginText:(NSString *)originText targetText:(NSString *

SQL的兩個字串的相似度的計算函式

我記得有個函式可以把字串插入到表的函式，我想可以通過函式處理，稍等，我整理一下看看: 通過fn_splitstr將字串分割為單個字元的表，通過計算相同字元數目來計算匹配度，呼叫可以測試： select dbo.fn_getsimilar('asdf','fdsa') --以下是建立函式指令碼 create

Java程式碼實現餘弦相似度演算法比較兩字串相似度

因工作需要比較兩個兩個字串的相似度比較，由於最短編輯距離演算法不符合需求，就又找其他演算法，在網上看到了另一個演算法：餘弦相似度演算法。於是學習了一下，並寫篇部落格儲存，以便學習以及日後用到。程式碼如下: import java.util.HashMap im

java實現編輯距離演算法，計算字串相似度

這是Levenshtein Distance演算法的java實現，另外oracle 10g r2當中好像自帶了這樣的函式，utl_match包當中public class LD { /** * 計算向量距離 * Levenshtein Distan

C#通過編輯距離計算兩個字符串的相似度的代碼

int != else dha reg ndis namespace i++ 過程將開發過程中較好的一些代碼段備份一下，下面的代碼是關於C#通過編輯距離計算兩個字符串的相似度的代碼，應該能對碼農們有些幫助。 using System; using System.Text.

判斷兩字串相似度

/** * <h5>功能:判斷兩字串相似度(最小為0,最大為1)</h5> * * @param strOne * @param strTwo * @return 兩字串相似度(最小為0,最大為1) */ public static double SimlaritySt

資料結構演算法題/兩個字串的最長公共子序列

一，問題描述給定兩個字串，求解這兩個字串的最長公共子序列（Longest Common Sequence）。比如字串1：BDCABA；字串2：ABCBDAB 則這兩個字串的最長公共子序列長度為4，最長公共子序列是：BCBA 二，演算法求解這是一個動態規劃的題目。

計算兩個字串相似度的演算法

相關推薦