基於Lucene、TF-IDF、餘弦相似性實現長文字相似度檢測

阿新 • • 發佈：2019-02-03

什麼是TF-IDF

TF-IDF(Term Frequency-Inverse Document Frequency)，漢譯為詞頻-逆文字頻率指數。

TF指一個詞出現的頻率，假設在一篇文章中某個詞出現的次數是n，文章的總詞數是N，那麼TF=n/N

逆文字頻率指數IDF一般用於表示一個詞的權重，其求解辦法為IDFi=log(D/Dw)，這裡D指的是文字總量，Dw指的是詞i在Dw篇文字中出現過。

什麼是餘弦相似

餘弦相似度用向量空間中兩個向量夾角的餘弦值作為衡量兩個個體間差異的大小。餘弦值越接近1，就表明夾角越接近0度，也就是兩個向量越相似，這就叫"餘弦相似性"。

對於二維空間，根據向量點積公式，顯然可以得知：

假設向量a、b的座標分別為(x1,y1)、(x2,y2) 。則：

TF-IDF和餘弦相似應用

這裡有兩篇文章講解的非常清楚，我就不再多說了，直接上文章連結。

下面就具體講解下程式碼的實現。

新增Gradle依賴

用到了WebMagic爬蟲框架、Jieba分詞java版，Lucene、Apache等一些庫

    compile group: 'us.codecraft', name: 'webmagic-core', version: '0.7.3'
    // https://mvnrepository.com/artifact/us.codecraft/webmagic-extension
    compile group: 'us.codecraft', name: 'webmagic-extension', version: '0.7.3'

    // https://mvnrepository.com/artifact/com.huaban/jieba-analysis
    compile group: 'com.huaban', name: 'jieba-analysis', version: '1.0.2'

    compile group: 'commons-io', name: 'commons-io', version: '2.6'

    compile group: 'org.apache.lucene', name: 'lucene-core', version: '3.6.0'
    compile group: 'org.apache.lucene', name: 'lucene-queryparser', version: '3.6.0'

爬取樣本庫並進行分詞

因為測試演算法的有效性需要大量的文字，我採用WebMagic爬蟲框架，爬取華為應用市場的應用描述資訊來當做樣本庫。

import us.codecraft.webmagic.Page;
import us.codecraft.webmagic.Site;
import us.codecraft.webmagic.Spider;
import us.codecraft.webmagic.processor.PageProcessor;
import us.codecraft.webmagic.selector.Selectable;

/**
 * @author wzj
 * @create 2018-07-17 22:06
 **/
public class AppStoreProcessor implements PageProcessor
{
    // 部分一：抓取網站的相關配置，包括編碼、抓取間隔、重試次數等
    private Site site = Site.me().setRetryTimes(3).setSleepTime(1000);

    public void process(Page page)
    {
        //獲取名稱
        String name = page.getHtml().xpath("//p/span[@class='title']/text()").toString();
        page.putField("appName",name );

        String desc =  page.getHtml().xpath("//div[@id='app_strdesc']/text()").toString();
        page.putField("desc",desc );

        if (page.getResultItems().get("appName") == null)
        {
            //skip this page
            page.setSkip(true);
        }

        //獲取頁面其他連結
        Selectable links = page.getHtml().links();
        page.addTargetRequests(links.regex("(http://app.hicloud.com/app/C\\d+)").all());
    }


    public Site getSite()
    {
        return site;
    }

    public static void main(String[] args)
    {
        Spider.create(new AppStoreProcessor())

                .addUrl("http://app.hicloud.com")
                .addPipeline(new MyPipeline())
                .thread(20)
                .run();
    }
}

自定義Piple來儲存爬取的應用資料，因為要對描述資訊進行分詞，需要對資料進行預處理，主要包含

通過正則去除中文特殊字元和標點符號 desc.replaceAll("[\\p{P}+~$`^=|<>～｀＄＾＋＝｜＜＞￥×]", "")
通過正則去除回車符、製表符等特殊符號 desc.replaceAll("\\t|\\r|\\n","");
通過正則去除空格 desc.replaceAll(" ","");

接著對資料進行分詞，採用jieba分析java版進行分詞處理

import com.huaban.analysis.jieba.JiebaSegmenter;
import org.apache.commons.io.IOUtils;
import us.codecraft.webmagic.ResultItems;
import us.codecraft.webmagic.Task;
import us.codecraft.webmagic.pipeline.Pipeline;

import java.io.FileWriter;
import java.io.IOException;
import java.nio.file.Paths;
import java.util.List;

/**
 * @author wzj
 * @create 2018-07-17 22:16
 **/
public class MyPipeline implements Pipeline
{
    /**
     * 儲存檔案的路徑
     */
    private static final String saveDir = "D:\\cache\\";

    /**
     * jieba分詞java版
     */
    private JiebaSegmenter segmenter = new JiebaSegmenter();

    /*
     * 統計數目
     */
    private int count = 1;
    

    /**
     * Process extracted results.
     *
     * @param resultItems resultItems
     * @param task        task
     */
    public void process(ResultItems resultItems, Task task)
    {
        String appName = resultItems.get("appName");
        String desc = resultItems.get("desc");

        //去除標點符號
        desc = desc.replaceAll("[\\p{P}+~$`^=|<>～｀＄＾＋＝｜＜＞￥×]", "");
        desc = desc.replaceAll("\\t|\\r|\\n","");
        //去除空格
        desc = desc.replaceAll(" ","");

        List<String> vecList = segmenter.sentenceProcess(desc);
        StringBuilder stringBuilder = new StringBuilder();
        for (String s : vecList)
        {
            stringBuilder.append(s + " ");
        }

        //去除最後一個空格
        String writeContent = stringBuilder.toString();
        if (writeContent.length() > 0)
        {
            writeContent = writeContent.substring(0,writeContent.length() - 1);
        }

        String appSavePath = Paths.get(saveDir, appName + ".txt").toString();
        FileWriter fileWriter = null;

        try
        {
            fileWriter = new FileWriter(appSavePath);
            fileWriter.write(writeContent);
        }
        catch (IOException e)
        {
            e.printStackTrace();
        }
        finally
        {
            IOUtils.closeQuietly(fileWriter);
        }

        System.out.println(String.valueOf(count++) + " " + appName);
    }
}

將爬取文字建立Lucene索引

需要指定文字檔案路徑和索引儲存路徑

    /**
     * 將所有的文件加入lucene中
     * @throws IOException
     */
    public void indexDocs() throws IOException
    {
        System.out.println("Number of files : " + docNumbers);

        File[] listOfFiles = Paths.get(docPath).toFile().listFiles();

        NIOFSDirectory dir = new NIOFSDirectory(new File(saveIndexPath));
        IndexWriter indexWriter = new IndexWriter(dir,
                new IndexWriterConfig(Version.LUCENE_36, new WhitespaceAnalyzer(Version.LUCENE_36)));

        for (File file : listOfFiles)
        {
            //讀取檔案內容，並去除數字標點符號
            String fileContent = fileReader(file);
            fileContent = fileContent.replaceAll("\\d+(?:[.,]\\d+)*\\s*", "");

            String docName = file.getName();

            Document doc = new Document();
            doc.add(new Field("docContent", new StringReader(fileContent), Field.TermVector.YES));
            doc.add(new Field("docName", new StringReader(docName), Field.TermVector.YES));

            indexWriter.addDocument(doc);
        }

        indexWriter.close();
        System.out.println("Add document successful.");
    }

TF-IDF演算法實現

首先計算已有文件的TF-IDF

/**
     * 獲取所有文件的tf-idf值
     * @return 結果
     * @throws IOException  IOException
     * @throws ParseException ParseException
     */
    public HashMap<String, Map<String, Float>> getAllTFIDF() throws IOException, ParseException
    {
        HashMap<String, Map<String, Float>> scoreMap = new HashMap<String, Map<String, Float>>();

        IndexReader re = IndexReader.open(NIOFSDirectory.open(new File(saveIndexPath)), true);

        for (int k = 0; k < docNumbers; k++)
        {
            //每一個文件的tf-idf
            Map<String, Float> wordMap = new HashMap<String, Float>();

            //獲取當前文件的內容
            TermFreqVector termsFreq = re.getTermFreqVector(k, "docContent");
            TermFreqVector termsFreqDocId = re.getTermFreqVector(k, "docName");

            String docName = termsFreqDocId.getTerms()[0];
            int[] freq = termsFreq.getTermFrequencies();

            String[] terms = termsFreq.getTerms();
            int noOfTerms = terms.length;
            DefaultSimilarity simi = new DefaultSimilarity();
            for (int i = 0; i < noOfTerms; i++)
            {
                int noOfDocsContainTerm = re.docFreq(new Term("docContent", terms[i]));
                float tf = simi.tf(freq[i]);
                float idf = simi.idf(noOfDocsContainTerm, docNumbers);
                wordMap.put(terms[i], (tf * idf));
            }
            scoreMap.put(docName, wordMap);
        }

        return scoreMap;
    }

接著輸入一段測試文字，在已有的文字庫中進行查詢，使用上面同樣的方法計算出待查詢文字的TF-IDF，具體的程式碼就不在貼出來。

最後餘弦相似度來找出最相似的文字。

    /**
     * 計算餘弦相似度
     * @param searchTextTfIdfMap 查詢文字的向量
     * @param allTfIdfMap 所有文字向量
     * @return 計算出當前查詢文字與所有文字的相似度
     */
    private static Map<String,Double> cosineSimilarity(Map<String, Float> searchTextTfIdfMap,HashMap<String, Map<String, Float>> allTfIdfMap)
    {
        //key是相似的文件名稱，value是與當前文件的相似度
        Map<String,Double> similarityMap = new HashMap<String,Double>();

        //計算查詢文字向量絕對值
        double searchValue = 0;
        for (Map.Entry<String, Float> entry : searchTextTfIdfMap.entrySet())
        {
            searchValue += entry.getValue() * entry.getValue();
        }

        for (Map.Entry<String, Map<String, Float>> docEntry : allTfIdfMap.entrySet())
        {
            String docName = docEntry.getKey();
            Map<String, Float> docScoreMap = docEntry.getValue();

            double termValue = 0;
            double acrossValue = 0;
            for (Map.Entry<String, Float> termEntry : docScoreMap.entrySet())
            {
                if (searchTextTfIdfMap.get(termEntry.getKey()) != null)
                {
                    acrossValue += termEntry.getValue() * searchTextTfIdfMap.get(termEntry.getKey());
                }

                termValue += termEntry.getValue() * termEntry.getValue();
            }

            similarityMap.put(docName,acrossValue/(termValue * searchValue));
        }

        return similarityMap;
    }

最後測試效果還不錯，可以找出最相近的文字。

原始碼下載

基於Lucene、TF-IDF、餘弦相似性實現長文字相似度檢測

什麼是TF-IDF TF-IDF(Term Frequency-Inverse Document Frequency)，漢譯為詞頻-逆文字頻率指數。 TF指一個詞出現的頻率，假設在一篇文章中某個詞出現的次數是n，文章的總詞數是N，那麼TF=n/N 逆文字頻率指數IDF一

TF-IDF與餘弦相似性文字處理：自動提取關鍵詞、找出相似文章

這個標題看上去好像很複雜，其實我要談的是一個很簡單的問題。有一篇很長的文章，我要用計算機提取它的關鍵詞（Automatic Keyphrase extraction），完全不加以人工干預，請問怎樣才能正確做到？這個問題涉及到資料探勘、文字處理、資訊檢索等很多計算

TF-IDF與餘弦相似性的應用（一）：自動提取關鍵詞

有一篇很長的文章，我要用計算機提取它的關鍵詞（Automatic Keyphrase extraction），完全不加以人工干預，請問怎樣才能正確做到？這個問題涉及到資料探勘、文字處理、資訊檢索等很多計算機前沿領域，但是出乎意料的是，有一個非常簡單的經典演算法，可以給出令人相當滿意的結果。它簡單到都不需要高等

機器學習筆記筆記之三——文字型別處理-詞袋法、TF-IDF理解

在面對文字型特徵時，大致可以分為兩種。一是列舉型別，比如：男女，小學生初中生高中生大學生……這種型別下類別一般不會超過百種，那麼就可以使用啞編碼（one-hot）來處理。另一種就是真正意義上的文字，一條評論或是一篇文章。對於這樣的資

特徵選擇方法之TF-IDF、DF

TF_IDF, DF都是通過簡單的統計來選擇特徵，因此把它們放在一塊介紹 1、TF-IDF 單詞權重最為有效的實現方法就是TF*IDF, 它是由Salton在1988 年提出的。其中TF 稱為詞頻, 用於計算該詞描述文件內容的能力; IDF 稱為反文

關鍵詞提取方法學習總結（TF-IDF、Topic-model、RAKE）

關鍵詞是一篇文件中表達的主要話題，處理文件或句子時，提取關鍵詞是最重要的工作之一，這在NLP中也是一個十分有用的task。常見的關鍵詞提取方法有：TF-IDF關鍵詞提取方法、Topic-model關鍵詞提取方法和RAKE關鍵詞提取。 TF-IDF：使用TF-IDF提取

文字處理-分詞、向量化、TF-IDF理論和實現

分詞在做文字挖掘的時候，首先要做的預處理就是分詞。英文單詞天然有空格隔開容易按照空格分詞，但是也有時候需要把多個單詞做為一個分詞，比如一些名詞如“New York”，需要做為一個詞看待。而中文由於沒有空格，分詞就是一個需要專門去解決的問題了。無論是英文還是中文，分詞的原理都是

一種基於 Numpy 的 TF-IDF 實現報告

常用離線數據結構與算法分析 dex 參考文獻代碼運行數組步驟一種基於 Numpy 的 TF-IDF 實現報告摘要本文使用了一種 state-of-the-art 的矩陣表示方法來計算每個詞在每篇文章上的 TF-IDF 權重（特征）。本文還將介紹基於 TF-

tf.Variable、tf.get_variable、tf.variable_scope以及tf.name_scope關系

str constant 情況下變量 shape 可選指定選項命名 1. tf.Variable與tf.get_variable tensorflow提供了通過變量名稱來創建或者獲取一個變量的機制。通過這個機制，在不同的函數中可以直接通過變量的名字來使用變量，而不需

tf.Variable()、tf.get_variable()、tf.name_scope()、tf.variable_scope()

- tf.Variable() W = tf.Variable(<initial-value>, name=<optional-name>) 用於生成一個初始值為init

文字相似度計算的幾個距離公式（歐氏距離、餘弦相似度、Jaccard距離、編輯距離）

本文主要講一下文字相似度計算的幾個距離公式，主要包括：歐氏距離、餘弦相似度、Jaccard距離、編輯距離。距離計算在文字很多場景下都可以用到，比如：聚類、K近鄰、機器學習中的特徵、文字相似度等等。接下來就一一介紹一下：假設兩個文字X=(x1, x2, x3,...xn)

TensorFlow 學習（七） — 常用函式 api、tf.nn、tf.keras

0. 四則運算平方：tf.square()，開方：tf.sqrt() tf.add()、tf.sub()、tf.mul()、tf.div()、tf.mod()、tf.abs()、tf.neg()

np.dot()、np.multiply()、tf.matmul()、tf.multiply()

import tensorflow as tf import numpy as np x1 = ([[1, 2, 3], [1, 2, 3], [1, 2, 3]]) x2 = ([[2, 1, 1], [2, 1, 1], [2, 1, 1]]) y1 =

短文字分析----基於python的TF-IDF特徵詞標籤自動化提取

緒論最近做課題，需要分析短文字的標籤，在短時間內學習了自然語言處理，社會標籤推薦等非常時髦的技術。我們的需求非常類似於從大量短文字中獲取關鍵詞（融合社會標籤和時間屬性）進行使用者畫像。這一切的基礎就是特徵詞提取技術了，本文主要圍繞關鍵詞提取這個主題進行介紹（

tensorflow 變數生成變數管理 tf.Variable、tf.get_variable、tf.variable_scope

____tz_zs學習筆記tf.Variabledef __init__(self, initial_value=None, trainable=True, collections=N

【tensorflow】tf.Variable、tf.constant、tf.placeholder

張量（Tensor）是TensorFlow的核心資料單位。一個張量由一組形成陣列（任意維數）的原始值組成。張量的階是它的維數，而它的形狀是一個整數元組，指定了陣列每個維度的長度。下面會介紹 Tensorflow 中幾個特殊張量： - tf.Vari

徹底弄懂tf.Variable、tf.get_variable、tf.variable_scope以及tf.name_scope異同

我之前有轉載過一篇講tf.variable_scope和tf.name_scope的文章，今天一看，覺得還是沒介紹太清楚，沒講到點子上，畢竟英文什麼的看起來還是挺麻煩的。故而，今天來細細梳理下tf.Variable、tf.get_variable、tf.vari

tf.Variable、tf.get_variable、tf.variable_scope以及tf.name_scope之間的關系

第二部分向量 tps 選項關系修改 variables 通過參考 tensorflow提供通過變量名稱來創建或者獲取一個變量的機制。通過這個機制，在不同的函數中可以直接通過變量的名字來使用變量，而不需要將變量通過參數的形式到處傳遞。 1. tf.Variable與

NLP文字相似度(TF-IDF)

我們在比較事物時，往往會用到“不同”，“一樣”，“相似”等詞語，這些詞語背後都涉及到一個動作——雙方的比較。只有通過比較才能得出結論，究竟是相同還是不同。但是萬物真的有這麼極端的區分嗎？在我看來不是的，生活中通過“相似度”這詞來描述可能會更加準確。比如男人和女人，雖然生理器官和可能思想有

Doc2Vec計算句子文件向量、求文字相似度

注：本文主要是記錄自己常用的關於Doc2Vec的簡單程式程式碼。因此不做過多的解釋，直接寫出程式碼，如有問題可以討論交流。一、doc2vec求文件向量 import sys import numpy as np import gensim from gensim.mod

基於Lucene、TF-IDF、餘弦相似性實現長文字相似度檢測

什麼是TF-IDF

什麼是餘弦相似

TF-IDF和餘弦相似應用

新增Gradle依賴

爬取樣本庫並進行分詞

將爬取文字建立Lucene索引

TF-IDF演算法實現

原始碼下載

相關推薦