文字相似度-bm25演算法原理及實現
原理
BM25演算法,通常用來作搜尋相關性平分。一句話概況其主要思想:對Query進行語素解析,生成語素qi;然後,對於每個搜尋結果D,計算每個語素qi與D的相關性得分,最後,將qi相對於D的相關性得分進行加權求和,從而得到Query與D的相關性得分。
BM25演算法的一般性公式如下:
其中,Q表示Query,qi表示Q解析之後的一個語素(對中文而言,我們可以把對Query的分詞作為語素分析,每個詞看成語素qi。);d表示一個搜尋結果文件;Wi表示語素qi的權重;R(qi,d)表示語素qi與文件d的相關性得分。
下面我們來看如何定義Wi。判斷一個詞與一個文件的相關性的權重,方法有多種,較常用的是IDF。這裡以IDF為例,公式如下:
其中,N為索引中的全部文件數,n(qi)為包含了qi的文件數。
根據IDF的定義可以看出,對於給定的文件集合,包含了qi的文件數越多,qi的權重則越低。也就是說,當很多文件都包含了qi時,qi的區分度就不高,因此使用qi來判斷相關性時的重要度就較低。
我們再來看語素qi與文件d的相關性得分R(qi,d)。首先來看BM25中相關性得分的一般形式:
其中,k1,k2,b為調節因子,通常根據經驗設定,一般k1=2,b=0.75;fi為qi在d中的出現頻率,qfi為qi在Query中的出現頻率。dl為文件d的長度,avgdl為所有文件的平均長度。由於絕大部分情況下,qi在Query中只會出現一次,即qfi=1,因此公式可以簡化為:
從K的定義中可以看到,引數b的作用是調整文件長度對相關性影響的大小。b越大,文件長度的對相關性得分的影響越大,反之越小。而文件的相對長度越長,K值將越大,則相關性得分會越小。這可以理解為,當文件較長時,包含qi的機會越大,因此,同等fi的情況下,長文件與qi的相關性應該比短文件與qi的相關性弱。
綜上,BM25演算法的相關性得分公式可總結為:
從BM25的公式可以看到,通過使用不同的語素分析方法、語素權重判定方法,以及語素與文件的相關性判定方法,我們可以衍生出不同的搜尋相關性得分計算方法,這就為我們設計演算法提供了較大的靈活性。
程式碼實現
import math
import jieba
from utils import utils
# 測試文字
text = '''
自然語言處理是電腦科學領域與人工智慧領域中的一個重要方向。
它研究能實現人與計算機之間用自然語言進行有效通訊的各種理論和方法。
自然語言處理是一門融語言學、電腦科學、數學於一體的科學。
因此,這一領域的研究將涉及自然語言,即人們日常使用的語言,
所以它與語言學的研究有著密切的聯絡,但又有重要的區別。
自然語言處理並不是一般地研究自然語言,
而在於研製能有效地實現自然語言通訊的計算機系統,
特別是其中的軟體系統。因而它是電腦科學的一部分。
'''
class BM25(object):
def __init__(self, docs):
self.D = len(docs)
self.avgdl = sum([len(doc)+0.0 for doc in docs]) / self.D
self.docs = docs
self.f = [] # 列表的每一個元素是一個dict,dict儲存著一個文件中每個詞的出現次數
self.df = {} # 儲存每個詞及出現了該詞的文件數量
self.idf = {} # 儲存每個詞的idf值
self.k1 = 1.5
self.b = 0.75
self.init()
def init(self):
for doc in self.docs:
tmp = {}
for word in doc:
tmp[word] = tmp.get(word, 0) + 1 # 儲存每個文件中每個詞的出現次數
self.f.append(tmp)
for k in tmp.keys():
self.df[k] = self.df.get(k, 0) + 1
for k, v in self.df.items():
self.idf[k] = math.log(self.D-v+0.5)-math.log(v+0.5)
def sim(self, doc, index):
score = 0
for word in doc:
if word not in self.f[index]:
continue
d = len(self.docs[index])
score += (self.idf[word]*self.f[index][word]*(self.k1+1)
/ (self.f[index][word]+self.k1*(1-self.b+self.b*d
/ self.avgdl)))
return score
def simall(self, doc):
scores = []
for index in range(self.D):
score = self.sim(doc, index)
scores.append(score)
return scores
if __name__ == '__main__':
sents = utils.get_sentences(text)
doc = []
for sent in sents:
words = list(jieba.cut(sent))
words = utils.filter_stop(words)
doc.append(words)
print(doc)
s = BM25(doc)
print(s.f)
print(s.idf)
print(s.simall(['自然語言', '電腦科學', '領域', '人工智慧', '領域']))
分段再分詞結果
[['自然語言', '電腦科學', '領域', '人工智慧', '領域', '中', '一個', '方向'],
['研究', '人', '計算機', '之間', '自然語言', '通訊', '理論', '方法'],
['自然語言', '一門', '融', '語言學', '電腦科學', '數學', '一體', '科學'],
[],
['這一', '領域', '研究', '涉及', '自然語言'],
['日常', '語言'],
['語言學', '研究'],
['區別'],
['自然語言', '研究', '自然語言'],
['在於', '研製', '自然語言', '通訊', '計算機系統'],
['特別', '軟體系統'],
['電腦科學', '一部分']]
s.f
列表的每一個元素是一個dict,dict儲存著一個文件中每個詞的出現次數
[{'中': 1, '電腦科學': 1, '領域': 2, '一個': 1, '人工智慧': 1, '方向': 1, '自然語言': 1},
{'之間': 1, '方法': 1, '理論': 1, '通訊': 1, '計算機': 1, '人': 1, '研究': 1, '自然語言': 1},
{'融': 1, '一門': 1, '一體': 1, '數學': 1, '科學': 1, '電腦科學': 1, '語言學': 1, '自然語言': 1},
{},
{'領域': 1, '這一': 1, '涉及': 1, '研究': 1, '自然語言': 1},
{'日常': 1, '語言': 1},
{'語言學': 1, '研究': 1},
{'區別': 1},
{'研究': 1, '自然語言': 2},
{'通訊': 1, '計算機系統': 1, '研製': 1, '在於': 1, '自然語言': 1},
{'軟體系統': 1, '特別': 1},
{'一部分': 1, '電腦科學': 1}]
s.df
儲存每個詞及出現了該詞的文件數量
{'在於': 1, '人工智慧': 1, '語言': 1, '領域': 2, '融': 1, '日常': 1, '人': 1, '這一': 1, '軟體系統': 1, '特別': 1, '數學': 1, '通訊': 2, '區別': 1, '之間': 1, '電腦科學': 3, '科學': 1, '一體': 1, '方向': 1, '中': 1, '理論': 1, '計算機': 1, '涉及': 1, '研製': 1, '一門': 1, '研究': 4, '語言學': 2, '計算機系統': 1, '自然語言': 6, '一部分': 1, '一個': 1, '方法': 1}
s.idf
儲存每個詞的idf值
{'在於': 2.0368819272610397, '一部分': 2.0368819272610397, '一個': 2.0368819272610397, '語言': 2.0368819272610397, '領域': 1.4350845252893225, '融': 2.0368819272610397, '日常': 2.0368819272610397, '人': 2.0368819272610397, '這一': 2.0368819272610397, '軟體系統': 2.0368819272610397, '特別': 2.0368819272610397, '數學': 2.0368819272610397, '通訊': 1.4350845252893225, '區別': 2.0368819272610397, '之間': 2.0368819272610397, '一門': 2.0368819272610397, '科學': 2.0368819272610397, '一體': 2.0368819272610397, '方向': 2.0368819272610397, '中': 2.0368819272610397, '理論': 2.0368819272610397, '計算機': 2.0368819272610397, '涉及': 2.0368819272610397, '研製': 2.0368819272610397, '電腦科學': 0.9985288301111273, '研究': 0.6359887667199966, '語言學': 1.4350845252893225, '計算機系統': 2.0368819272610397, '自然語言': 0.0, '人工智慧': 2.0368819272610397, '方法': 2.0368819272610397}
s.simall(['自然語言', '電腦科學', '領域', '人工智慧', '領域'])
['自然語言', '電腦科學', '領域', '人工智慧', '領域']與每一句的相似度
[5.0769919814311475, 0.0, 0.6705449078118518, 0, 2.5244316697250033, 0, 0, 0, 0.0, 0.0, 0, 1.2723636062357853]