高效相似度計算 LSH minHash simHash的學習

joey 周琦

本文首先介紹了局部敏感雜湊的概念與用處，然後介紹了常見的快速計算相似度、尋找近鄰的方法minHash, simHash

區域性敏感雜湊Locality-sensitive hashing (LSH)

定義

首先我們看看wiki上比較準確的英文描述[1]。
An LSH family $\mathcal F$ is defined for a metric space $\mathcal M =(M, d)$ , a threshold $R>0$ and an approximation factor c>1. This family

F $\mathcal F$ is a family of functions

h:M→S $h:{\mathcal M}\to S$ which map elements from the metric space to a bucket

s∈S $s \in S$ . The LSH family satisfies the following conditions for any two points

p,q∈M $p, q \in {\mathcal M}$ , using a function

∈F $h \in \mathcal F$ which is chosen uniformly at random:

if d(p,q) $\le$ R, then h(p)=h(q) (i.e.,p and q collide) with probability at least $P_1$ ,

if d(p,q) $\ge$ cR, then h(p)=h(q) with probability at most $P_2$ .
A family is interesting when $P_1>P_2$ . Such a family $\mathcal F$ is called $(R,cR,P_1,P_2)$ -sensitive.

wiki關於metric space給出的定義

In mathematics, a metric space is a set for which distances between all members of the set are defined. Those distances, taken together, are called a metric on the set.

根據上述資訊，我中文理解下。區域性敏感雜湊(Locality-sensitive hashing）是為了度量空間 $\mathcal M =(M, d)$ （metric space)定義的函式族，將度量空間的不同元素對映到相應的桶(bucket)中。滿足以下性質：

if d(p,q) $\le$ R, then h(p)=h(q) (i.e.,p and q collide) with probability at least $P_1$ ,

if d(p,q) $\ge$ cR, then h(p)=h(q) with probability at most $P_2$ .
A family is interesting when $P_1>P_2$ . Such a family $\mathcal F$ is called $(R,cR,P_1,P_2)$ -sensitive.

其中 $R$ 是一個閾值， $c$ 是一個近似因子。 $d$ 則是度量空間的一種距離的計算方式，常見的有餘弦距離，Jaccard距離，編輯距離等。上述兩個性質可以從下圖看的更明顯。這裡寫圖片描述

橫座標表示距離，縱座標可以理解兩個點（下面用“點”來統一代替文件，item,或物品等名稱，在應用都可以視為一種東西）被放入一個桶（即認為二者較為相似）的概率。可以看出LSH可以將距離較近的點以至少概率 $p_1$ 的概率歸為類似，距離遠的點至多有概率 $p_2$ 歸為類似

意義Motivation

一個演算法或概念的意義是很重要的。我們學習這個概念演算法到底可以解決什麼問題？適用於哪些場景？
剛才看了LSH的定義，那麼這個東西有啥用，哪些場景可以用呢？如何在海量資料中找到一個高維度點相似的點集合？（搜尋中找出最相關的query, 視訊業務中找到最接近重複的視訊，等等）最簡單的方法是計算每個點與該點的距離，然後排序。然後如果面對海量資料，這種暴力計算的方法是不可取的。如果我們可以找到一類函式LSH,高效率的將任意兩個點是否很接近找出來，就可以解決上述問題。常見的LSH方案有minHash,simHash. 下面分別簡單介紹下

minHash

minHashing

minHash ( min-wise independent permutation LSH scheme) 可以快速估計兩個集合的相似度。為了minHash一個集合，首先將該集合用矩陣表示，然後隨機選取行索引的一個排列(permutation), 該集合的minHash的值是按照這個排列遇見的第一個為1的行的索引。
下面看例子，將上述矩陣的行按照一個隨機的排列如下，那麼minHash( $S_1$ )=a, minHash( $S_2$ )=c, minHash( $S_3$ )=b, minHash( $S_4$ )=a
這裡寫圖片描述

性質

對於一個隨機的排列，兩個集合的minHash相等的概率等於兩個集合的Jaccard相似度

即

Pr[minHash(A)=minHash(B)]=J(A,B) $Pr[ minHash(A) = minHash(B) ] = J(A,B)$
證明參考[2]第三章，例子也來自於此書。

假設 $\{S_1,...S_M\}$ M個集合共有 $N$ 個元素，即那個矩陣有 $N$ 行, minHash的思想是隨機選取 $n$ 個排列(permutation) , $n<<N$ , 那麼我們可以用minHash得到的 $n$ 維度向量 $[h_1(S),...,h_n(S)]^T$ 來代替集合 $S$ ,可以看出原來 $N$ 維度的向量被壓縮為了 $n$ 維度。

在現實中排列一個很大的行索引也是很慢的，所以一般用隨機的雜湊函式來替代排列.

還是依據上面的矩陣表示，我們這裡用兩個雜湊函式(x+1 mod 5 和3x+1 mod 5)代表兩個排列.
這裡寫圖片描述

對於第一個排列(x+1 mod 5）的含義，新第0行對應的第4行，新的第一行為原來的第0行，所以第一個排列的順序為[4 0 1 2 3 4], 第二個排列為[3 0 2 4 1]. 那麼根據minHash的定義，我們可以得到
這裡寫圖片描述

當然這是我們根據肉眼看的，那麼如何通過一個演算法得到呢？
若S 表示集合的矩陣表示。初始化新的minHash矩陣K, 每列代表一個集合，每行代表一個排列,矩陣每個元素初始化為 $\infty$ . 下面 $N$ 代表原來的feature個數， $n$ 代表新的排列個數， $M$ 代表集合個數。在例項中 $N=5,n=2,M=4$

1 根據雜湊算出每行的 $h_1(i),...,h_n(i).(i=1...N)$
2 For i = 1:N
For c = 1:M
如果S[i,c]為0；跳過
否則；對於每個排列r=1…n, K(r,c) = min ( K(r,c), h_r(i) )
上述例子的更新過程如下面幾幅圖

通過上面的過程，每個集合就可以用一個 $n$ 維向量來表示，已經大大壓縮了資料，然而面對海量資料，若要找出任意兩個點的相似度，依然是一個很大的計算量。然後在很多應用中，我們之需要找出與某點相似的點的集合即可，而不用算出每個pair對的相似度。

書[2]中描述了一種桶方式，可以高效率的找出相似的pair對。上面得到向量可以分為 $b$ 段（桶），每個段有 $r$ 個行，假設兩個點的Jaccard相似度為 $s$ ,根據“minHash的值相等的概率等於Jaccard相似度”這個定理，若兩個點在某個段完全相同，則認為這兩個點為相似對。分析如下

兩個點在一個段中，完全一樣的概率為 $s^r$
兩個點在一個段中，不完全一樣的概率為 $1-s^r$
兩個點在所有段中，不完全一樣的概率為 (1−

相關推薦

高效相似度計算 LSH minHash simHash的學習

joey 周琦本文首先介紹了局部敏感雜湊的概念與用處，然後介紹了常見的快速計算相似度、尋找近鄰的方法minHash, simHash 區域性敏感雜湊Locality-sensitive hashing (LSH) 定義首先我們看看wiki上比較準確的英文

海量資料相似度計算之simhash和海明距離

通過採集系統我們採集了大量文字資料，但是文字中有很多重複資料影響我們對於結果的分析。分析前我們需要對這些資料去除重複，如何選擇和設計文字的去重演算法？常見的有餘弦夾角演算法、歐式距離、Jaccard相似度、最長公共子串、編輯距離等。這些演算法對於待比較的文字資料不多時還比較好用，如果我們的爬蟲每天採集的

用戶相似度計算

計算使用 val PE 相似度 ID turn 稀疏 code 協同過濾中用戶距離計算 # 構建共同的評分向量 def build_xy(user_id1, user_id2): bool_array = df.loc[user_id1].notnull() &

Spark MLlib 之大規模數據集的相似度計算原理探索

tis afr 廣播圖片 times 導致 coord 向量校驗無論是ICF基於物品的協同過濾、UCF基於用戶的協同過濾、基於內容的推薦，最基本的環節都是計算相似度。如果樣本特征維度很高或者<user, item, score>的維度很大，都會導致無法直

短文本相似度計算

實用好的 svm center 大量 network alt 詞匯很難短文本的相似度計算方法可以分為兩大類：基於深度學習的方法和基於非深度學習的方法。科研方面基本都是從深度學習方面入手，但個人覺得想把單語言的短文本相似度計算給做出花來比較難，相對而言基

1. 文本相似度計算-文本向量化

就是 mage method 根據計算 down youdao 比較所有 1.前言在自然語言處理過程中，經常會涉及到如何度量兩個文本之間的相似性，我們都知道文本是一種高維的語義空間，如何對其進行抽象分解，從而能夠站在數學角度去量化其相似性。有了文本之間相似性的度量方

影象相似度計算-kmeans聚類

關於影象相似度,主要包括顏色,亮度,紋理等的相似度,比較直觀的相似度匹配是直方圖匹配.直方圖匹配演算法簡單,但受亮度,噪聲等影響較大.另一種方法是提取影象特徵,基於特徵進行相似度計算,常見的有提取影象的sift特徵,再計算兩幅影象的sift特徵相似度.對於不同的影象型別,也可以採用不同的

協同過濾相似度計算

(1)傳統的傑卡德相似度計算公式如下，其中A，B可以為不同使用者的購物品類，當用戶量特別大的時候，導致計算複雜度比較高，因為直接進行了笛卡爾積運算，這時候可能沒有辦法進行運算。優化方法

相似度計算之Jaccard係數

Jaccard相似係數定義給定兩個集合A,B，Jaccard 係數定義為A與B交集的大小與A與B並集的大小的比值，定義如下：當集合A，B都為空時，J(A,B)定義為1。與Jaccard 係數相關的指標叫做Jaccard 距離，用於描述集合之間的不相似度。Jaccard

餘弦相似度計算[轉載]

轉自:https://www.cnblogs.com/dsgcBlogs/p/8619566.html 1.定義及計算公式餘弦相似度用向量空間中兩個向量夾角的餘弦值作為衡量兩個個體間差異的大小。餘弦值越接近1，就表明夾角越接近0度，也就是兩個向量越相似，這就叫"餘弦相似性"。

nlp中文字相似度計算問題

文章的目的：文字相似度計算一直是nlp中常見的問題，本文的目標是總結並對比文字相似度計算方法。當然文字的相似度計算會有進一步的應用，比如文字的分類、聚類等。文章結構：本文先介紹最直接的字面距離相似度度量，而後介紹語義主題層面的度量，最後介紹目前一些新的相似度計算方法。一、字面距

句子相似度計算的幾種方法

在做自然語言處理的過程中，我們經常會遇到需要找出相似語句的場景，或者找出句子的近似表達，這時候我們就需要把類似的句子歸到一起，這裡面就涉及到句子相似度計算的問題，那麼本節就來了解一下怎麼樣來用 Python 實現句子相似度的計算。基本方法句子相似度計算我們一共歸類

雜湊演算法-圖片相似度計算

雜湊演算法實現圖片相似度計算實現圖片相似度比較的雜湊演算法有三種：均值雜湊演算法，差值雜湊演算法，感知雜湊演算法 1.均值雜湊演算法一張圖片就是一個二維訊號，它包含了不同頻率的成分。亮度變化小的區域是低頻成分，它描述大範圍的資訊。而亮度變化劇烈的區域（比如物

相似度計算之餘弦相似度

一、定義及概念：餘弦取值範圍為[-1,1]。求得兩個向量的夾角，並得出夾角對應的餘弦值，此餘弦值就可以用來表徵這兩個向量的相似性。夾角越小，趨近於0度，餘弦值越接近於1，它們的方向更加吻合，則越相似。當兩個向量的方向完全相反夾角餘弦取最小值-1。當餘弦值為0時，兩向量正交，夾角為9

基於神經網路的文字相似度計算【醫療大資料】

任務描述問句匹配是自然語言處理的最基本任務之一，是自動問答，聊天機器人，資訊檢索，機器翻譯等各種自然語言處理任務基礎。問句匹配的主要目的是判斷兩個問句之間的語義是否等價。判別標準主要根據主句（即提問者）所蘊含的意圖來判斷兩個語句是否等價，而不直接判斷兩個語句是否表達相

Python 文字挖掘：使用gensim進行文字相似度計算

index = similarities.MatrixSimilarity(corpus_tfidf)#把所有評論做成索引 sims = index[vec_tfidf]#利用索引計算每一條評論和商品描述之間的相似度 similarity = list(sims)#把相似度儲存成陣列，以便寫入txt 文件

推薦系統的幾種相似度計算

對使用者的行為進行分析得到使用者的偏好後，可以根據使用者的偏好計算相似使用者和物品，然後可以基於相似使用者或物品進行推薦。這就是協同過濾中的兩個分支了，即基於使用者的協同過濾和基於物品的協同過濾。關於相似度的計算，現有的幾種方法都是基於向量(Vector)

圖片相似度計算-模板匹配

什麼是模板匹配？　　所謂模板匹配就是給出一個模板圖片和一個搜尋圖片，在搜尋圖片中找到與模板圖片最為相似的部分。怎麼實現？　　簡單來說，就是讓模板圖片在搜尋圖片上滑動，以畫素點為單位，計算每一個位置上的相似度，最終得到相似度最高的畫素點的位置，以該畫素點為原定，模板圖片為大小，對應在搜尋

word2vec詞向量訓練及中文文字相似度計算

本文是講述如何使用word2vec的基礎教程，文章比較基礎，希望對你有所幫助！官網C語言下載地址：http://word2vec.googlecode.com/svn/trunk/官網Python下載地址：http://radimrehurek.com/gensim/mod

文字相似度計算的幾個距離公式（歐氏距離、餘弦相似度、Jaccard距離、編輯距離）

本文主要講一下文字相似度計算的幾個距離公式，主要包括：歐氏距離、餘弦相似度、Jaccard距離、編輯距離。距離計算在文字很多場景下都可以用到，比如：聚類、K近鄰、機器學習中的特徵、文字相似度等等。接下來就一一介紹一下：假設兩個文字X=(x1, x2, x3,...xn)

高效相似度計算 LSH minHash simHash的學習

區域性敏感雜湊Locality-sensitive hashing (LSH)

定義

意義Motivation

minHash

相關概念

minHashing

相關推薦