編輯距離Edit Distance
阿新 • • 發佈:2018-12-09
編輯距離,又稱Levenshtein距離(萊文斯坦距離也叫做Edit Distance),是指兩個字串之間,由一個轉成另一個所需的最少編輯操作次數,如果它們的距離越大,說明它們越是不同。許可的編輯操作包括將一個字元替換成另一個字元,插入一個字元,刪除一個字元。
先建立一個矩陣,假設有兩個字串,我們的字串的長度分別是m和n,那麼,我們矩陣的維度就應該是(m+1)*(n+1).
首先是邊界: ①i==0時,即a為空,那麼對應的f[0][j]的值就為j:增加j個字元,使a轉化為b ②j==0時,即b為空,那麼對應的f[i][0]的值就為i:減少i個字元,使a轉化為b
之後計算規則就是: d[i,j]=min(d[i-1,j]+1 、d[i,j-1]+1、d[i-1,j-1]+cost) 這三個當中的最小值。
其中:str1[i] == str2[j],用cost記錄它,為0。否則cost記為1
用d[i-1,j]+1表示增加操作 d[i,j-1]+1 表示刪除操作 d[i-1,j-1]+temp表示替換操作
public class Main { public static void main(String...str2) { String s1="mnkljsddd"; String s2="jlknm"; System.out.println(lcs(s1,s2)); } public static int lcs(String str1, String str2) { int len1 = str1.length(); int len2 = str2.length(); int c[][] = new int[len1+1][len2+1]; //初始化邊界 for(int i=0;i<=len1;i++) { c[i][0]=i; } for(int i=0;i<=len2;i++) { c[0][i]=i; } int cost=0; for (int i = 1; i <= len1; i++) { for( int j = 1; j <= len2; j++) { if(str1.charAt(i-1) == str2.charAt(j-1)) { cost=0; }else { cost=1; } c[i][j]=Math.min(c[i][j-1]+1, Math.min(c[i-1][j]+1, c[i-1][j-1]+cost)); } } return c[len1][len2]; } }