LSH(區域性敏感雜湊演算法)實現文字的相似性比對

阿新 • • 發佈：2019-02-17

# @Time    : 2017/10/19 10:09
# @Author  : Jalin Hu
# @File    : main.py
# @Software: PyCharm
import os
import jieba
import collections
import random
from lshash.lshash import LSHash

'''函式說明:獲取詞彙集合
Parameters:
    foldpath - 論文資料夾路徑
Returns:
    datalist_dict - 詞集字典（名字：詞集）'''


def textprocess(foldpath):
    datalist = []
    classlist = []
    # datalist_dict = {}
    vocabset = collections.defaultdict(int)
    filelist = os.listdir(foldpath)  # 獲取paper資料夾下面所有的檔名
    for file in filelist:
        with open(os.path.join(foldpath, file), 'r', encoding='utf-8') as f:
            sequence = f.read()
            key = file.strip('.txt').strip('[').strip(']').strip(r"\\'")

            datalist.append(jieba.lcut(sequence, cut_all=False))
            classlist.append(key)
            print(key, ':**************ok')
    for content in datalist:
        for word in content:
            vocabset[word] += 1
    all_word_sorted = sorted(vocabset.items(), key=lambda e: e[1], reverse=True)
    all_word_list, all_word_nums = zip(*all_word_sorted)
    return datalist, classlist, list(all_word_list)

    # # return datalist, classlist
    # data_class_list = list(zip(datalist, classlist))
    # # print(data_class_list)
    # random.shuffle(data_class_list)
    # index = int(len(data_class_list) * testsize) + 1  # 訓練集和測試集區分的索引
    # traindatalist, trainclasslist = zip(*(data_class_list[index:]))  # 訓練集解壓縮
    # testdatalist, testclasslist = zip(*(data_class_list[:index]))  # 測試集解壓縮
    #
    # # 統計訓練集詞頻
    # allworddict = collections.defaultdict(int)  # 建立預設字典
    # for word_list in traindatalist:
    #     for word in word_list:
    #         allworddict[word] += 1
    #
    # # 根據鍵的值倒序排列
    # all_word_sorted = sorted(allworddict.items(), key=lambda e: e[1], reverse=True)
    # all_word_list, all_word_nums = zip(*all_word_sorted)
    # all_word_list = list(all_word_list)
    # return all_word_list, traindatalist, trainclasslist, testdatalist, testclasslist


'''函式說明:讀取檔案裡的內容，並去重
Parameters:
    words_file - 檔案路徑
Returns:
    words_set - 讀取的內容的set集合'''


def make_word_set(word_file):
    word_set = set()
    with open(word_file, 'r', encoding='utf-8') as f:
        for line in f.readlines():
            word = line.strip()
            if len(word) > 0:
                word_set.add(word)
    return word_set


'''函式說明:文字特徵選取
Parameters:
    all_words_list - 訓練集所有文字列表
    deleteN - 刪除詞頻最高的deleteN個詞
    stopwords_set - 指定的結束語
Returns:
    feature_words - 特徵集'''


def word_dict(vocabset, deleteN, stopwords_set):
    feature_words = []
    for i in range(deleteN, len(vocabset), 1):
        if not vocabset[i].isdigit() and vocabset[i] not in stopwords_set and 1 < len(
                vocabset[i]) < 5:
            feature_words.append(vocabset[i])
    return feature_words


'''函式說明:向量化
Parameters:
    vocablist - 所有特徵集
    inputset - 輸入的詞集
Returns:
    returnvec - 向量'''


def bagof_word2vec(vocablist, inputset):
    returnvec = [0] * len(vocablist)
    for word in inputset:
        if word in vocablist:
            returnvec[vocablist.index(word)] += 1
        else:
            print('word:', word, 'is not in the list_vec')
    return returnvec


if __name__ == '__main__':
    datalist, classlist, vocabset = textprocess('./paper')  # 獲取每篇論文的詞集
    stop_word_file = './stopwords_cn.txt'
    stop_word_set = make_word_set(stop_word_file)
    feature_words = word_dict(vocabset, 0, stop_word_set)
    trainMat = []

    lsh = LSHash(hash_size=10, input_dim=len(feature_words))
    for postinDoc in datalist:
        trainMat_vec = bagof_word2vec(feature_words, postinDoc)  # 訓練集向量化
        trainMat.append(trainMat_vec)
        lsh.index(trainMat_vec)

    testfile = './test.txt'
    testlist = []
    with open(testfile, 'r', encoding='utf-8') as f:
        sequence = f.read()
        testlist.append(jieba.lcut(sequence, cut_all=False))
        testvect = bagof_word2vec(feature_words, testlist[0])

    re = lsh.query(testvect, num_results=1)
    print(list(re[0][0]))
    print(trainMat.index(list(re[0][0])))
    print('最相似的論文是：', classlist[trainMat.index(list(re[0][0]))])

LSH(區域性敏感雜湊演算法)實現文字的相似性比對

# @Time : 2017/10/19 10:09 # @Author : Jalin Hu # @File : main.py # @Software: PyCharm import os import jieba import collections import random from

LSH Locality-Sensitive Hashing 區域性敏感雜湊演算法總結

http://www.cppblog.com/Files/humanchao/LSH(Locality%20Sensitive%20Hashing).zip參考文獻：Website:Paper:[1] Approximate nearest neighbor: towards removing the cur

區域性敏感雜湊演算法的實現

近來由於工作需要，需要將字串的相似度的計算速度進行提升。之前曾採用最長公共子序列、編輯距離等演算法實現過，但總滿足不了實時比較的效能及速度需求。前些天由同事推薦區域性敏感雜湊演算法，便嘗試了一把，結果發現速度還不錯，本著記錄與分享的精神，簡單總結下實現的過程及思路。【Sh

[Algorithm] 區域性敏感雜湊演算法(Locality Sensitive Hashing)

　　然後看第一列的第一個是1的行是第幾行，是第2行，同理再看二三四列，分別是1，2，1，因此這四列（四個document）在這個置換下，被雜湊成了2，1，2，1，就是右圖中的藍色部分，也就相當於每個document現在是1維。再通過另外兩個置換然後再hash，又得到右邊的另外兩行，於是最終結果是每個docum

LSH 位置敏感雜湊演算法

前言 LSH 用於近似查詢，聚類分類，壓縮等領域。漢明距離漢明距離是以理查德·衛斯里·漢明的名字命名的。在資訊理論中，兩個等長字串之間的漢明距離是兩個字串對應位置的不同字元的個數。換句話說，它就是將一個字串變換成另外一個字串所需要替換的字元個數。例如：10111

區域性敏感雜湊演算法

3、計算相似性。使得兩個不一樣的bands被雜湊到不同的bucket中，這樣一來就有：如果兩個document的bands中，至少有一個share了同一個bucket，那這兩個document就是candidate pair，也就是很有可能是相似的。（找相似：同一個籃子裡面的就是有可能相似的樣本框；如果兩個籃

從NLP任務中文字向量的降維問題，引出LSH（Locality Sensitive Hash 區域性敏感雜湊）演算法及其思想的討論

1. 引言 - 近似近鄰搜尋被提出所在的時代背景和挑戰 0x1：從NN（Neighbor Search）說起 ANN的前身技術是NN（Neighbor Search），簡單地說，最近鄰檢索就是根據資料的相似性，從資料集中尋找與目標資料最相似的專案，而這種相似性通常會被量化到空間上資料之間的距離，例如歐幾里

LSH︱python實現區域性敏感雜湊——LSHash（二）

關於區域性敏感雜湊演算法，之前用R語言實現過，但是由於在R中效能太低，於是放棄用LSH來做相似性檢索。學了Python發現很多模組都能實現，而且通過隨機投影森林讓查詢資料更快，覺得可以試試大規模應用在資料相似性檢索+去重的場景。私認為，文字的相似性可以

區域性敏感雜湊(原始LSH)python實現

最近短期計劃是學習一下Python，最好的學習方式當然是實踐了，今天用Python實現了下lsh演算法，程式碼比較簡陋。。。（2016.1.17） origionalLSH.py: import random class Bucket: feature

最近鄰和K近鄰及其優化演算法LSH（區域性敏感雜湊，Locality Sensitive Hashing） Kd-Tree

引言在處理大量高維資料時，如何快速地找到最相似的資料是一個比較難的問題。如果是低維的小量資料，線性查詢（Linear Search）就可以解決，但面對海量的高維資料集如果採用線性查詢將會非常耗時。因此，為了解決該問題通常採用些優化演算法。稱之為近似最近鄰查詢

【機器學習】使用Python中的區域性敏感雜湊（LSH）構建推薦引擎

學習如何使用LSH在Python中構建推薦引擎; 一種可以處理數十億行的演算法你會學到：在本教程結束時，讀者可以學習如何：通過建立帶狀皰疹來檢查和準備LSH的資料選擇LSH的引數為LSH建立Minhash 使用LSH Query推薦會議論文使用LSH

區域性敏感雜湊LSH（Locality-Sensitive Hashing）——海量資料相似性查詢技術

一、前言最近在工作中需要對海量資料進行相似性查詢，即對微博全量使用者進行關注相似度計算，計算得到每個使用者關注相似度最高的TOP-N個使用者，首先想到的是利用簡單的協同過濾，先定義相似性度量（cos，Pearson,Jaccard），然後利用通過兩兩計算相似度，計算top-n進行篩選，這種方法的時

區域性敏感雜湊matlab程式碼解讀

個人總結：這篇文章介紹了局部敏感雜湊演算法，區域性敏感雜湊是非監督的雜湊演算法。演算法的輸入是實數域的特徵向量，輸出為一個binary vector。利用雜湊函式將資料點對映到不同的桶中是一種保形對映，使得資料點 i 和資料點 j 在原始空間的相似度

c++中的雜湊演算法實現

/* 雜湊演算法的實現原理是：通過獲得你要排序的序列長度（m），然後得出比這個 m 大的素數作為陣列的長度（n），然後對接下來的輸入資料（D）進行取模運算（v=D%n）, 然後

區域性敏感雜湊（Locality Sensitive Hashing）和MinHash介紹與例項

在實際應用中，我們所面對的資料是海量的，並且有著很高的維度。在對資料的各種操作中，查詢操作是最常見的一種，這裡的查詢是指輸入一個數據，查詢與其相似的資料，那麼怎樣快速地從海量高維資料中，找到與某個資料最相似的資料，成為了一個難點和問題。低維的小資料集，可通過線性查詢來解決

LSHash(區域性敏感雜湊)

原載：http://cool.sinaapp.com 作者：junGle 原文網址：http://1.cool.sinaapp.com/?p=911 前文所說的minhash，比較的是jaccard相似度，基於兩兩來比較的話，如果文件數很大，比如：100w文件，根據排

區域性敏感雜湊Locality Sensitive Hashing歸總

說到Hash，大家都很熟悉，是一種典型的Key-Value結構，最常見的演算法莫過於MD5。其設計思想是使Key集合中的任意關鍵字能夠儘可能均勻的變換到Value空間中，不同的Key對應不同的Value，即使Key值只有輕微變化，Value值也會發生很大地變化。這樣特性

<Golang>MD5、SHA256等雜湊演算法介紹、應用場景及具體實現

版權宣告：本文為作者原創，如需轉載，請註明出處https://blog.csdn.net/weixin_42940826 前言 MD5和SHA256是非常常用的兩種單向雜湊函式，雖然MD5在2005年已經被中國密碼學家王小云攻破，但是曾經也是叱吒風雲的被大規模使用，現在

https是如何加密的（知道了原理之後，希望自己能用程式碼實現一下，還有用於對個人資訊和公鑰進行加密的雜湊演算法，有時間也去查一下）

由於http協議是明文傳輸資料，資料的安全性沒有保障。為了改進這種明文傳輸協議，https誕生了。 https是在應用層和傳輸層之間，增加了一層ssl加密。對於加密，請往下看： 1、對稱加密每次在傳送資料之前，伺服器先生成一把金鑰，

雜湊演算法 C語言（陣列實現）

7-17 電話聊天狂人（25 分）給定大量手機使用者通話記錄，找出其中通話次數最多的聊天狂人。輸入格式: 輸入首先給出正整數N（≤105），為通話記錄條數。隨後N行，每行給出一條通話記錄。簡單起見，這裡只列出撥出方和接收方的11位數字構成的手機號碼，其中以空格

LSH(區域性敏感雜湊演算法)實現文字的相似性比對

相關推薦