1. 程式人生 > >[Algorithm] 區域性敏感雜湊演算法(Locality Sensitive Hashing)

[Algorithm] 區域性敏感雜湊演算法(Locality Sensitive Hashing)

  然後看第一列的第一個是1的行是第幾行,是第2行,同理再看二三四列,分別是1,2,1,因此這四列(四個document)在這個置換下,被雜湊成了2,1,2,1,就是右圖中的藍色部分,也就相當於每個document現在是1維。再通過另外兩個置換然後再hash,又得到右邊的另外兩行,於是最終結果是每個document從7維降到了3維。我們來看看降維後的相似度情況,就是右下角那個表,給出了降維後的document兩兩之間的相似性。可以看出,還是挺準確的,回想一下剛剛說的:希望原來documents的Jaccard相似度高,那麼它們的hash值相同的概率高,如果原來documents的Jaccard相似度低,那麼它們的hash值不相同的概率高,如何進行概率上的保證?Min-Hashing有個驚人的性質: