1. 程式人生 > >文字相似度-詞袋模型

文字相似度-詞袋模型

1、詞袋模型
將兩篇文字通過詞袋模型變為向量模型,通過計算向量的餘弦距離來計算兩個文字間的相似度。

詞袋模型的缺點:
詞袋模型最重要的是構造詞表,然後通過文字為詞表中的詞賦值,但詞袋模型嚴重缺乏相似詞之間的表達。
比如“我喜歡北京”“我不喜歡北京”其實這兩個文字是嚴重不相似的。但詞袋模型會判為高度相似。
“我喜歡北京”與“我愛北京”其實表達的意思是非常非常的接近的,但詞袋模型不能表示“喜歡”和“愛”之間嚴重的相似關係。(當然詞袋模型也能給這兩句話很高的相似度,但是注意我想表達的含義)