編輯距離及編輯距離演算法 | Levenshtein距離 |DP
加一點自己理解
編輯距離概念描述:
編輯距離,又稱Levenshtein距離,是指兩個字串之間,由一個轉成另一個所需的最少編輯操作次數。許可的編輯操作包括將一個字元替換成另一個字元,插入一個字元,刪除一個字元。
例如將kitten一字轉成sitting:
- sitten (k→s)
- sittin (e→i)
- sitting (→g)
俄羅斯科學家Vladimir Levenshtein在1965年提出這個概念。
問題:找出字串的編輯距離,即把一個字串s1最少經過多少步操作變成程式設計字串s2,操作有三種,新增一個字元,刪除一個字元,修改一個字元
解析:
首先定義這樣一個函式——edit(i, j),它表示第一個字串的長度為i的子串到第二個字串的長度為j的子串的編輯距離。
顯然可以有如下動態規劃公式:
- if i == 0 且 j == 0,edit(i, j) = 0
- if i == 0 且 j > 0,edit(i, j) = j
- if i > 0 且j == 0,edit(i, j) = i
- if i ≥ 1 且 j ≥ 1 ,edit(i, j) == min{ edit(i-1, j) + 1, edit(i, j-1) + 1, edit(i-1, j-1) + f(i, j) },當第一個字串的第i個字元不等於第二個字串的第j個字元時,f(i, j) = 1;否則,f(i, j) = 0。
0 | f | a | i | l | i | n | g |
0 | |||||||
s | |||||||
a | |||||||
i | |||||||
l | |||||||
n |
0 | f | a | i | l | i | n | g | |
0 | 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 |
s | 1 | |||||||
a | 2 | |||||||
i | 3 | |||||||
l | 4 | |||||||
n | 5 |
計算edit(1, 1),edit(0, 1) + 1 == 2,edit(1, 0) + 1 == 2,edit(0, 0) + f(1, 1) == 0 + 1 == 1,min(edit(0, 1),edit(1, 0),edit(0, 0) + f(1, 1))==1,因此edit(1, 1) == 1。 依次類推:
0 | f | a | i | l | i | n | g | |
0 | 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 |
s | 1 | 1 | 2 | 3 | 4 | 5 | 6 | 7 |
a | 2 | 2 | ||||||
i | 3 | |||||||
l | 4 | |||||||
n | 5 |
edit(2, 1) + 1 == 3,edit(1, 2) + 1 == 3,edit(1, 1) + f(2, 2) == 1 + 0 == 1,其中s1[2] == 'a' 而 s2[1] == 'f'‘,兩者不相同,所以交換相鄰字元的操作不計入比較最小數中計算。以此計算,得出最後矩陣為:
0 | f | a | i | l | i | n | g | |
0 | 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 |
s | 1 | 1 | 2 | 3 | 4 | 5 | 6 | 7 |
a | 2 | 2 | 1 | 2 | 3 | 4 | 5 | 6 |
i | 3 | 3 | 2 | 1 | 2 | 3 | 4 | 5 |
l | 4 | 4 | 3 | 2 | 1 | 2 | 3 | 4 |
n | 5 | 5 | 4 | 3 | 2 | 2 | 2 | 3 |
狀態轉移,從edit(i, j) 三個方向轉來
edit(i-1, j) + 1, edit(i, j-1) + 1 表示插入或刪除一個字元
edit(i-1, j-1) + f(i, j) f(i,j)=0 表示不替換 f(i,j)=1表示替換1次
算是一個DP例項
#include "bits/stdc++.h"
using namespace std;
const int N=1e3+5;
int dp[N][N];
char str1[N],str2[N];
int main()
{
int len1,len2;
while(scanf("%s%s",str1,str2)!=EOF){
len1=strlen(str1);
len2=strlen(str2);
for(int i=0;i<=len1;i++){
dp[i][0]=i;
}
for(int i=0;i<=len2;i++){
dp[0][i]=i;
}
for(int i=1;i<=len1;i++){
for(int j=1;j<=len2;j++){
dp[i][j]=min(dp[i-1][j]+1,dp[i][j-1]+1);
dp[i][j]=min(dp[i][j],dp[i-1][j-1]+(str1[i-1]!=str2[j-1]));
}
}
for(int i=0;i<=len1;i++){
for(int j=0;j<=len2;j++){
printf("%d ",dp[i][j]);
}
puts("");
}
printf("%d\n",dp[len1][len2]);
}
return 0;
}
我們來看一個實際應用。現代搜尋技術的發展很多以提供優質、高效的服務作為目標。比如說:baidu、google、sousou等知名全文搜尋系統。當我們輸入一個錯誤的query="Jave" 的時候,返回中有大量包含正確的拼寫 "Java"的網頁。當然這裡面用到的技術絕對不會是我們今天講的怎麼簡單。但我想說的是:字串的相似度計算也是做到這一點的方法之一。
在資訊檢索領域的應用我們在文章開始的時候就提到了。另外,編輯距離在自然語言文字處理領域(NLP)中是計算字串相似度的重要方法。一般而言,對於中文語句的相似度處理,我們很多時候都是將詞作為一個基本操作單位,而不是字(字元)。