Lucene筆記32-Lucene的擴充套件-Tika的第二種使用方式

阿新 • • 發佈：2018-11-29

一、Tika的第二種使用方式

第二種使用方式更加的簡單，官方文件說，相比於第一種，效率會有降低，下面來看程式碼。

// 文件上說效率沒有前一種方式高
public String fileToTextEasy(File file) {
    Tika tika = new Tika();
    Metadata metadata = new Metadata();
    // 可以自定義metadata的值，同理，可以設定很多的值，這裡就不演示了
    // 對於Tika已經設定過的值，設定是無效的，只能對沒有設定過的值進行設定
    metadata.set(Metadata.AUTHOR, "王劭陽");
    try {
        String text;
        // 使用這何種方式，因為沒有傳入metadata，所以輸出的內容中只有自己設定的Author
        text = tika.parseToString(file);
        // 傳入metadata引數的方式，因為傳入了metadata引數，所以輸出的內容有tika獲取到的和自己設定的
        // text = tika.parseToString(new FileInputStream(file), metadata);
        for (String name : metadata.names()) {
            System.out.println(name + "-->" + metadata.get(name));
        }
        return text;
    } catch (IOException e) {
        e.printStackTrace();
    } catch (TikaException e) {
        e.printStackTrace();
    }
    return null;
}

二、對建立索引進行改進

這裡只需要將Field的引數進行變化一下就可以了，詳情看程式碼，為了和之前作對比，使用Luke來檢視下最終生成的索引，這裡使用的分詞器不好的原因，中文分詞被分成了一個字一個字的，換成IK分詞器之後，就正常了。

public void indexWithTika() {
    try {
        Directory directory = FSDirectory.open(new File("E:\\Lucene\\IndexLibrary"));
        IndexWriter indexWriter = new IndexWriter(directory, new IndexWriterConfig(Version.LUCENE_35, new MMSegAnalyzer()));
        Document document = new Document();
        document.add(new Field("content", new Tika().parse(file)));
        indexWriter.addDocument(document);
        indexWriter.close();
    } catch (IOException e) {
        e.printStackTrace();
    }
}

MMSegAnalyzer分詞效果：

IKAnalyzer分詞效果：

Lucene筆記32-Lucene的擴充套件-Tika的第二種使用方式

一、Tika的第二種使用方式第二種使用方式更加的簡單，官方文件說，相比於第一種，效率會有降低，下面來看程式碼。 // 文件上說效率沒有前一種方式高 public String fileToTextEasy(File file) { Tika tika = new Tika();

Lucene筆記33-Lucene的擴充套件-使用Tika建立索引並進行搜尋

一、使用Tika建立索引之前建立索引的文件都是txt檔案，現在有了Tika，我們就可以將pdf，word，html等檔案，通過Tika提取出文字，之後建立索引，建立索引的寫法和之前大致相似。只需要將content域對應的值做一下處理，之前是FileReader來讀取，現在是使用Tika.p

Lucene筆記31-Lucene的擴充套件-Tika介紹

一、Tika介紹 Tika是2008年由Apache組織開發的專案，主要用於開啟不同的文件。Tika的下載請點選這裡。在處理文件索引的時候，有時候會碰到pdf，html，word這種非純文字的內容，這些內容怎麼來建立索引呢，這就要用到Tika了，Tika像一個橋樑一樣，連通了IndexWri

Lucene筆記35-Lucene的擴充套件-高亮索引檔案

一、對索引檔案新增高亮現在我們有一些索引檔案，怎麼對這些索引檔案新增高亮呢？首先需要根據搜尋域和值找到這篇文件，然後通過文件獲取域值，再將域值交給highlighter進行加工並返回，這個時候，返回的值就是新增過高亮的了。二、程式碼展示 package com.wsy; imp

Lucene筆記34-Lucene的擴充套件-高亮基礎

一、高亮顯示用到的類 Fragmenter：拿到一個字串之後，對字串進行分段 QueryScorer：查詢評分，將評分最高的展示給使用者 Encoder：顯示出來的文字有兩種，一種是SimpleEncode（忽略掉HTML標籤），一種是DefaultEncode（展示HTM

Lucene筆記30-Lucene的擴充套件-Luke介紹

一、Luke介紹 Luke是一個查詢索引的工具，Luke的下載點選這裡看第二部分，這裡就不多講了，需要注意的是Lucene和Luke要版本匹配，否則Luke是打不開Lucene索引的。首先開啟Luke，選擇索引的目錄，就可以開啟索引，就可以看到介面了，右上角有個Re-open表示重新載入索引

Lucene筆記26-Lucene的使用-自定義QueryParser解決部分查詢的效能問題

一、使用自定義QueryParser的原因對於某些QueryParser（FuzzyQuery、WildcardQuery）在查詢時會使得效能降低，所以考慮將這些查詢取消。在具體的查詢時候，很可能有這樣一種需求：獲取的是一個數字查詢範圍，所以必須要擴充套件原有的QueryPa

Lucene筆記25-Lucene的使用-根據域進行評分設定

一、需求根據檔名來設定評分規則，或者根據文件的修改時間，將最近一年的評分加倍，一年以外的評分降低，等等。二、具體實現這裡根據檔名來修改評分規則，檔名中包含“JRE”和“SYSTEM”的評分加倍，其餘減倍。重點就是怎麼獲取到檔名，在customScore()方法中，有一個doc變

Lucene筆記24-Lucene的使用-自定義評分簡介

一、自定義評分流程有時候，Lucene提供的計算評分規則可能不符合業務需求，所以我們需要自定義評分規則，來實現自定義評分。自定義評分的流程：建立一個類繼承CustomScoreQuery、重寫getCustomScoreProvider()方法、建立CustomScoreProvider類

Lucene筆記23-Lucene的使用-簡單複習索引、檢索和分詞

一、索引索引過程中的核心類：IndexWriter、Directory、Analyzer、Document、Field。 IndexWriter用來寫索引。 Directory用來定義索引的目標位置是硬碟上還是記憶體中。 Analyzer用來分詞，常用的分詞器有：SimpleA

Lucene筆記22-Lucene的使用-Filter

一、Filter應用場景假如有人搜尋了一個關鍵詞，通過Lucene查出來了所有的文件，讀者比較關心最新的一些內容，因此需要將某些內容過濾掉。只顯示使用者敏感的文件資料即可。這就要用到過濾器。二、程式碼演示 public void filter(String queryString

Lucene筆記21-Lucene的自定義排序

一、排序介紹 Lucene對文件搜尋完成後，顯示的結果是有一個順序的，如果沒有設定排序規則，那麼這個順序就是按照文件的評分降序排列，至於評分的計算，是一個比較複雜的公式，這裡不先研究了。可是有時候，我們需要根據需求，改變預設的排序規則，這時候就要用到自定義排序啦，下面來看一下自定義排序是怎麼

Lucene筆記20-Lucene的分詞-實現自定義同義詞分詞器-實現分詞器（良好設計方案）

一、目前存在的問題在getSameWords()方法中，我們使用map臨時存放了兩個鍵值對用來測試，實際開發中，往往需要很多的這種鍵值對來處理，比如從某個同義詞詞典裡面獲取值之類的，所以說，我們需要一個類，根據key提供近義詞。為了能更好的適應應用場景，我們先定義一個介面，其中定義一

Lucene筆記19-Lucene的分詞-實現自定義同義詞分詞器-實現分詞器

一、同義詞分詞器的程式碼實現 package com.wsy; import com.chenlb.mmseg4j.Dictionary; import com.chenlb.mmseg4j.MaxWordSeg; import com.chenlb.mmseg4j.analysis.MM

Lucene筆記18-Lucene的分詞-實現自定義同義詞分詞器-思路分析

一、實現自定義同義詞分詞器思路分析前面文章我們提到同義詞分詞器，這裡我們先來分析下同義詞分詞器的設計思路。首先我們有一個需要分詞的字串string，通過new StringReader(string)拿到Reader。使用analyzer.tokenStream("co

Lucene筆記17-Lucene的分詞-中文分詞介紹

一、分詞器的作用分詞器的作用就是得到一個TokenStream流，這個流中儲存了分詞相關的一些資訊，可以通過屬性獲取到分詞的詳細資訊。二、自定義Stop分詞器 package com.wsy; import org.apache.lucene.analysis.*; impor

Lucene筆記16-Lucene的分詞-通過TokenStream顯示分詞的詳細資訊

一、通過TokenStream檢視分詞的詳細資訊 package com.wsy; import org.apache.lucene.analysis.*; import org.apache.lucene.analysis.standard.StandardAnalyzer; impor

Lucene筆記15-Lucene的分詞-通過TokenStream顯示分詞

一、展示分詞內容 package com.wsy; import org.apache.lucene.analysis.*; import org.apache.lucene.analysis.standard.StandardAnalyzer; import org.apache.luc

Lucene筆記14-Lucene的分詞-分詞器的原理講解

一、分詞器原理最主要的分詞器有SimpleAnalyzer、StopAnalyzer、WhitespaceAnalyzer、StandardAnalyzer。先來研究一下SimpleAnalyzer。當一串資料傳進來之後，會被轉化成TokenStream這樣一個東西，這個TokenS

Lucene筆記13-Lucene的搜尋-基於searchAfter的實現

一、使用searchAfter完成分頁查詢 searchAfter()方法原理是獲取上一頁的最後一個元素和pageSize，再從最後一個元素的後一個開始取pageSize條資料，這就是需要展示的結果了。searchAfter()方法需要三個引數：ScoreDoc after, Query q

Lucene筆記32-Lucene的擴充套件-Tika的第二種使用方式

一、Tika的第二種使用方式

二、對建立索引進行改進

相關推薦