C#：字串相似度演算法（ Levenshtein Distance演算法）

阿新 • • 發佈：2019-01-27

編輯距離，又稱Levenshtein距離（也叫做Edit Distance），是指兩個字串之間，由一個轉成另一個所需的最少編輯操作次數。許可的編輯操作包括將一個字元替換成另一個字元，插入一個字元，刪除一個字元。

網上有很多關於此演算法的原始碼，但其中一些存在Bug，如百度搜索排名靠前的：

Bug：matrix[0][0]沒有初始化

此外，幾乎所有的程式碼都沒有考慮是否忽視字母大小寫的問題，因此我用C#重新實現此演算法。

/// <summary> /// 編輯距離（Levenshtein Distance） /// </summary> /// <param name="source">源串</param> /// <param name="target">目標串</param> /// <param name="similarity">輸出：相似度，值在0～１</param> /// <param name="isCaseSensitive">是否大小寫敏感</param> /// <returns>源串和目標串之間的編輯距離</returns> public static Int32 LevenshteinDistance(String source, String target, out Double similarity, Boolean isCaseSensitive = false) { if (String.IsNullOrEmpty(source)) { if (String.IsNullOrEmpty(target)) { similarity = 1; return 0; } else { similarity = 0; return target.Length; } } else if (String.IsNullOrEmpty(target)) { similarity = 0; return source.Length; } String From, To; if (isCaseSensitive) { // 大小寫敏感 From = source; To = target; } else { // 大小寫無關 From = source.ToLower(); To = target.ToLower(); } // 初始化 Int32 m = From.Length; Int32 n = To.Length; Int32[,] H = new Int32[m + 1, n + 1]; for (Int32 i = 0; i <= m; i++) H[i, 0] = i; // 注意：初始化[0,0] for (Int32 j = 1; j <= n; j++) H[0, j] = j; // 迭代 for (Int32 i = 1; i <= m; i++) { Char SI = From[i - 1]; for (Int32 j = 1; j <= n; j++) { // 刪除（deletion）插入（insertion）替換（substitution） if (SI == To[j - 1]) H[i, j] = H[i-1, j-1]; else H[i, j] = Math.Min(H[i-1, j-1], Math.Min(H[i-1, j], H[i, j-1])) + 1; } } // 計算相似度 Int32 MaxLength = Math.Max(m, n); // 兩字串的最大長度 similarity = ((Double)(MaxLength - H[m, n])) / MaxLength; return H[m, n]; // 編輯距離 }

測試程式碼：

public static void CheckEditDistance() { Int32 Distance; Double Similarity; while (true) { Console.WriteLine("------------------------------------"); Console.Write("源串 = "); String Source = Console.ReadLine(); if (Source == "q") break; Console.Write("目標串 = "); String Target = Console.ReadLine(); Distance = LevenshteinDistance(Source, Target, out Similarity, true); Console.WriteLine("編輯距離 = " + Distance.ToString()); Console.WriteLine("相似度 = " + Similarity.ToString("0.####")); } }

C#：字串相似度演算法（ Levenshtein Distance演算法）

C#：字串相似度演算法（ Levenshtein Distance演算法）

20180923 word2vec相似度改進（不浪費句子）

Python+gensim-文字相似度分析（小白進）

字串相似度演算法（編輯距離演算法 Levenshtein Distance）

演算法介紹（3）編輯距離演算法-字串相似度

字串相似度演算法

Java程式碼實現餘弦相似度演算法比較兩字串相似度

基於《知網》的詞彙語義相似度計算（上）（作者：劉群李素建）

java實現編輯距離演算法，計算字串相似度

矩陣式比較兩文字字串相似度（包含漢字）方法兩則（java程式碼）

計算兩個字串相似度的演算法

C字串相似度計算

基於編輯距離來判斷詞語相似度方法（scala版）

動態規劃：任務調度問題（雙塔問題）

算法筆記（七）：復雜度分析（一）

判斷兩字串相似度

c++分塊演算法（暴力資料結構）

編輯距離演算法詳解：Levenshtein Distance演算法——動態規劃問題

資料結構筆記：字串類的建立（下）

資料結構筆記：字串類的建立（上）

C#：字串相似度演算法（ Levenshtein Distance演算法）

相關推薦