1. 程式人生 > >句子相似度比較的歸一化

句子相似度比較的歸一化

我們將不同長度的句子(預處理並分詞之後的長度)直接做比較其實是不公平的,舉個例子:

 

Sentence 1 =  長度為2

Sentence 2 = 長度為1

Sentence 3 = 長度為3

(在取相似詞TOP4,exp=0.7,的情況下)

即便Sent2與Sent1詞的組成完全不同,base_similarity=0.2513

同樣的,Sent3與Sent1完全不同,       base_similarity=0.2063

長度長的詞本身就處於劣勢,所以我考慮在相似度的基礎上,減去base_similarity,並加上一個常數(純粹為了好看,不然我其實應該使用正態分佈作歸一化,這個後續做)

 

此外,exp取0.6是我在分析近義詞的時候得到的,講道理我應該統計得到TOP1 TOP2 TOP3...的平均值或者中位數,這個也後續做把。。。先用經驗值替代