lucene 初探

阿新 • • 發佈：2017-12-25

聚集分享圖片 ive 獲取出現 void top readfile 創建索引

前言:

　　window文件管理右上角, 有個搜索功能, 可以根據文件名進行搜索. 那如果從文件名上判斷不出內容, 我豈不是要一個一個的打開文件, 查看文件的內容, 去判斷是否是我要的文件?

　　幾個, 十幾個文件還好, 如果是幾百個甚至幾萬上百萬, 我也能這麽去找麽?

　　這不是找文件了, 而是找不自在, 找虐.

　　那這個問題, 該怎麽解決呢?

　　那就牽出了今天的話題了. lucene, 讓軟件去幫我們找就好了嘛.

lucene初探:

一. 原理介紹:

　　在介紹原理之前, 先來使用一下百度搜索吧. 這個大家都用過的.

技術分享圖片

我明明搜索的是: 歡迎使用lucene, 但是從下面的結果來看, 並不是直接搜的全部, 而是將搜索語句進行了一個拆分操作, 然後綜合搜索. 最後一條尤其明顯.

那lucene裏面, 其實也是一樣的. 在搜索的時候也會進行拆分操作.

那文檔這麽多, lucene也是一個一個文件去找麽?

我們在進行數據庫查詢的時候, 在大數據量的時候都可以很快的找到想要的數據, 這是因為數據庫將數據進行了有序排列. 這種有序排列, 分兩種,

　　一種叫聚集索引(id), 這個排列是跟具體存儲內容無關的, 是數據庫根據進入先後自己排的順序.

　　另一種叫非聚集索引, 是根據要存儲數據的邏輯來排序的.

就像是查字典, 如果後面的字並不按照拼音排序, 而是雜亂無章的, 那麽我們通過字典前面的索引, 還是可以快讀定位到要查找的字.

lucene在解析文件的時候, 也是建立了索引的. 和數據庫一樣, 也會生成一個自己的主鍵id, 根據這個id可以非常快的定位到文件.

除了id之外, 還會解析出非聚集索引. 例如在 a.txt , b.txt 中, 都還有一個字符串 : "索引", 那麽在解析之後, 就會得出這麽個東西:

　　"索引" 2次 1,2

這裏是按照次數倒敘排列的, 出現的越多, 越會靠前出現(這裏和百度不同, 百度是你給的錢越多, 越靠前).

最後, 可能還需要理解接個對象:

lucene 解析文件的時候會創建 Document 文件對象(相當於數據庫中的表的概念), 在Document裏面, 有Field 域對象(相當於數據庫中的字段, 只不過域可重名),

Field 對象裏面就存放著分詞器解析後的結果(Term s). 分詞器解析的結果就是 Term .

如在二分分詞器裏面, "我是中國人" 會被解析成為: "我是"(Term), "是中"(Term), "中國"(Term),"國人"(Term), 然後將這四個Term放在一個Field中.

二. 項目搭建

pom.xml:

這裏使用的lucene版本是4.10.3. 最新版本已經到7.2.0了. 這裏就不介紹最新版了, 大差不差, 有興趣的朋友可以自己去看一下.

    <properties>
        <lucene.version>4.10.3</lucene.version>
    </properties>

    <dependencies> 
        <!-- https://mvnrepository.com/artifact/org.apache.lucene/lucene-core -->
        <dependency>
            <groupId>org.apache.lucene</groupId>
            <artifactId>lucene-core</artifactId>
            <version>${lucene.version}</version>
        </dependency>

        <!-- https://mvnrepository.com/artifact/org.apache.lucene/lucene-queryparser -->
        <dependency>
            <groupId>org.apache.lucene</groupId>
            <artifactId>lucene-queryparser</artifactId>
            <version>${lucene.version}</version>
        </dependency>

        <!-- https://mvnrepository.com/artifact/org.apache.lucene/lucene-analyzers-common -->
        <dependency>
            <groupId>org.apache.lucene</groupId>
            <artifactId>lucene-analyzers-common</artifactId>
            <version>${lucene.version}</version>
        </dependency>

        <!-- https://mvnrepository.com/artifact/org.apache.lucene/lucene-highlighter -->
        <dependency>
            <groupId>org.apache.lucene</groupId>
            <artifactId>lucene-highlighter</artifactId>
            <version>${lucene.version}</version>
        </dependency>
        <dependency>
            <groupId>org.junit.jupiter</groupId>
            <artifactId>junit-jupiter-api</artifactId>
            <version>RELEASE</version>
        </dependency>


        <!-- https://mvnrepository.com/artifact/commons-io/commons-io -->
        <dependency>
            <groupId>commons-io</groupId>
            <artifactId>commons-io</artifactId>
            <version>2.6</version>
        </dependency>

　　　　 <!--ik分詞器-->
        <!-- https://mvnrepository.com/artifact/com.janeluo/ikanalyzer -->
        <dependency>
            <groupId>com.janeluo</groupId>
            <artifactId>ikanalyzer</artifactId>
            <version>2012_u6</version>
        </dependency>
    </dependencies>

三. 分詞器配置

官方有個推薦的分詞器, Stand開頭的, 那個分詞器是給歪果仁用的, 我們用不了那個.

這裏用的是IK分詞器, 雖然已經不更新了, 但是這個是可擴展的, 對於新的流行詞匯, 加進去之後, 是可以識別出來的. 能滿足使用就行了. 對於別的分詞器, 有好的, 也可以用.

IKAnalyzer.cfg.xml:

<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd">  
<properties>  
    <comment>IK Analyzer 擴展配置</comment>
    <!--用戶可以在這裏配置自己的擴展字典 -->
    <entry key="ext_dict">lucene/ext.dic;</entry>
    
    <!--用戶可以在這裏配置自己的擴展停止詞字典-->
    <entry key="ext_stopwords">lucene/stopword.dic;</entry>
    
</properties>

ext.dic:

要錘得錘
吃瓜群眾
藍瘦香菇

stopword.dic:

我
啊
是
a
an
and
are
as
at
be
but
by
for
if
in
into
is
it
no
not
of
on
or
such
that
the
their
then
there
these
they
this
to
was
will
with

四. 新建索引

     /**
     * 索引存放目錄
     */
    private String indexDir = "E:\\Java\\mylucene\\temp\\index";

    /**
     * 待解析文件目錄
     */
    private String fileDir = "E:\\Java\\mylucene\\temp\\files";

     /**
     * 獲取 index 操作對象
     * @return
     * @throws Exception
     */
    private IndexWriter getWriter() throws Exception {
        //1. 創建一個 indexwriter對象
        //1.1 指定索引庫的存放位置 directory 對象
        //1.2 指定一個分析器, 對文檔內容進行分析
        Directory directory = FSDirectory.open(new File(indexDir));
        Analyzer analyzer = new IKAnalyzer(); //ik分詞
        IndexWriterConfig config = new IndexWriterConfig(Version.LUCENE_4_10_3, analyzer);
        IndexWriter indexWriter = new IndexWriter(directory, config);
        return indexWriter;
    }

     /**
     * 創建索引
     *
     * @throws IOException
     */
    @Test
    public void createIndex() throws Exception {
        //1. 獲取寫入對象
        IndexWriter indexWriter = getWriter();

        //2. 獲取要解析的文件
        File[] files = new File(fileDir).listFiles();

        //3. 遍歷文件, 存儲解析結果
        for (File file : files) {
            //3.1 創建document對象
            Document document = new Document();

            //文件名稱
            String file_name = file.getName();
            Field fileNameField = new TextField("fileName", file_name, Field.Store.YES);
            document.add(fileNameField);

            //文件大小
            long file_size = FileUtils.sizeOf(file);
            Field fileSzieField = new LongField("fileSize", file_size, Field.Store.YES);
            document.add(fileSzieField);

            //文件路徑
            String file_path = file.getPath();
            Field filePathField = new StoredField("filePath", file_path);
            document.add(filePathField);

            //文件內容
            String file_content = FileUtils.readFileToString(file, "utf-8");
            Field fileContentField = new TextField("fileContent", file_content, Field.Store.YES);
            document.add(fileContentField);

            //3.2. 使用indexwriter對象, 將document對象寫入索引庫, 此過程中進行索引創建, 並將索引和document對象寫入索引庫
            indexWriter.addDocument(document);
        }

        //4. 關閉indexwriter對象
        indexWriter.close();
    }

這裏我放了兩個文檔, 一個國歌.txt, 一個軍中綠花.txt.

解析之後, 可以使用 luke 去查看索引. 具體下載地址: https://github.com/DmitryKey/luke/releases/tag/luke-4.10.3

技術分享圖片

一般文件比較多, 所以看這個, 也沒啥太大意義.

五. 索引刪除

刪除一般有兩種, 一種是什麽都不管, 一鍋端. 另一種是根據條件過濾刪除.

     /**
     * 根據條件刪除索引
     *
     * @throws Exception
     */
    @Test
    public void deleteBy() throws Exception {
        IndexWriter writer = getWriter();

        //根據條件精確刪除
        Query query = new TermQuery(new Term("fileName", "花"));
        writer.deleteDocuments(query);

        //解析查詢條件來刪除
        QueryParser queryParser = new QueryParser("fileName", new IKAnalyzer());
        Query query1 = queryParser.parse("花");
        writer.deleteDocuments(query1);

        writer.close();
    }

六. 修改索引

     /**
     * 修改索引
     *
     * @throws Exception
     */
    @Test
    public void updateIndex() throws Exception {
        IndexWriter writer = getWriter();
        Document doc = new Document();
        doc.add(new TextField("fileName", "live", Field.Store.YES));
        doc.add(new TextField("fileContent", "live 生活", Field.Store.YES));
        writer.updateDocument(new Term("fileName", "生活"), doc);
        writer.close();
    }

這裏的修改是刪除再新增的, 其實就是根據 term 刪除之前的document, 然後用新的 doc

lucene 初探

聚集分享圖片 ive 獲取出現 void top readfile 創建索引前言: 　　window文件管理右上角, 有個搜索功能, 可以根據文件名進行搜索. 那如果從文件名上判斷不出內容, 我豈不是要一個一個的打開文件, 查看文件的內容, 去判斷是否是我要的文件?

lucene 初探 - 查詢

log ets 執行 () 準備 parser 技術分享文件路徑 must lucene初探, 是為了後面solr做準備的. 如果跳過lucene, 直接去看solr, 估計有點懵. 由於時間的關系, lucene查詢方法也有多個, 所以單獨出來. 一. 精確查詢

【手把手教你全文檢索】Apache Lucene初探

PS: 苦學一週全文檢索，由原來的搜尋小白，到初次涉獵，感覺每門技術都博大精深，其中精髓亦是不可一日而語。那小博豬就簡單介紹一下這一週的學習歷程，僅供各位程式猿們參考，這其中不涉及任何私密話題，因此也不用打馬賽克了，都是網路分享的開源資料，當然也不涉及任何利益關係。　　如若轉載，還請註明出處——

3.1 Java以及Lucene的安裝與配置

clas font style edi 面向對象上進 net ref ips Lucene是Java開發的一套用於全文檢索和搜索的開源程序庫，它面向對象多層封裝，提供了一個低耦合、與平臺無關的、可進行二次開發的全文檢索引擎架構，是這幾年最受歡迎的信息檢索程序庫[1]。對L

STL初探——第一級配置 __malloc_alloc_template的學習心得

exception template 定義 stl 空間似的 strong cep 對象　　在第一級配置器中，一開始就定義了內存分配出錯的宏接口，如下： #ifndef __THROW_BAD_ALLOC # if defined(__STL_NO_BAD_ALLO

STL初探——第二級配置器 __default_alloc_template的學習心得

空間配置 def 管理使用函數效率需求 typename [] 　　SGI STL 第二級配置器使用的是memory pool，即內存池，相比較於第一級空間配置器，第二級空間配置器多了許多限制，主要是為了防止申請小額區塊過多而造成內存碎片。當然小額區塊在配置時實際上

全文索引-lucene，solr，nutch，hadoop之nutch與hadoop

aof java get 查詢自己結構目的 strong 之間全文索引-lucene。solr。nutch，hadoop之lucene 全文索引-lucene。solr，nutch，hadoop之solr 我在去年的時候，就想把lucene，sol

lucene創建索引以及索引文件合並

dex null menu test alt tor document oid stand 1 package test; 2 3 import java.io.File; 4 import java.io.IOException; 5 import

STL初探——__default_alloc_template內存池

滿足 thread idt turn 徹底 align 其他函數 return 　　_S_chunk_alloc() 函數負責從內存池取出空間給free-list，如果內存池內存充足，則直接拿出足夠的內存塊給自由鏈表，如果內存不夠所有需求但是對一小塊需求能滿足，則拿出一小

3.6 Lucene基本檢索+關鍵詞高亮+分頁

trac 16px b- 標註 enter author amp 影響重要 3.2節我們已經運行了一個Lucene實現檢索的小程序，這一節我們將以這個小程序為例，講一下Lucene檢索的基本步驟，同時介紹關鍵詞高亮顯示和分頁返回結果這兩個有用的技巧。一、Lucene檢索

關於Lucene的自定義Sort排序

構造 log 構造方法 art lock bsp dex ear string 參考：http://blog.csdn.net/wxwzy738/article/details/8585786 使用Sort排序工具實現排序 Lucene在查詢的時候，可以通過以一個Sort作

初探Ignite

col guava tor 可靠分布式 blog 可靠性無法 star Guava是一個很方便的本地緩存工具，但是在多節點處理的過程中，本地緩存無法滿足數據一致性的問題。分布式緩存Ignite很好的解決了數據一致性，可靠性，事務性等方面的問題。 Ignite支持分區方式

初探HTML

只需要 window系統 css 4.3 避免新增使用分離 type 1使用元素 1.這裏用粗體標明元素，code為標簽，其中<code>為開始標簽，</code>為結束標簽；<code>apples</code&g

python初探

安裝python 官網文件上下 python3 配置環境變量裝包靜態而是 day0 : python初探導讀語言分為靜態語言和動態語言（1）靜態語言要求必須聲明每個變量的類型：它會使用多少內存以及允許的使用方法。計算機利用這些信息把程序編譯成非常底層的機

Lucene總結

缺點 ocs line 運行什麽是 jdk 不同結構化數據文檔數據的分類結構化數據:有固定類型或者有固定長度的數據例如:數據庫中的數據(mysql,oracle等), 元數據(就是windows中的數據) 結構化數據搜索方法: 數據庫中數據通過sql語句可以搜索

[Docker][ansible-playbook]3 持續集成環境初探

centos nbsp 答案 -- ace 目錄 google ssh-key tmp 預計閱讀時間： 20分鐘本期解決痛點如下：1. 代碼版本的多樣性，編譯環境的多樣性如何解決？答案是使用docker，將不同的編譯環境images統統打包到私有倉庫上，根據需求進行下載，

poj1200 字符串hash 滾動哈希初探

arp 下一個字符串轉換 ada 一個 problem public int abi 假如要判斷字符串A“AABA”是否是字符串B“AABAACAADAABAABA”的子串最樸素的算法是枚舉B的所有長度為4的子串，然後逐個與A進行對比，這樣的時間復雜度

Machine Learning~初探

Y軸 ron 當我什麽 http 過程網上數據大坑　　最近接觸了機器學習，感覺很夢幻，能實現的我的夢想，看網上說的花天酒地的難，但是想做就要做下去，毅然決然的跳入這個大坑。　　讓我們慢慢來，先懟它幾個概念。監督學習　　我們給出了關於每個數據的“正確答案”。監

爬蟲初探--PHP

count style 構造 com 任務 tail pattern 簡單 mkdir 　　我有收藏的cms網站，偶爾會下載一些資源，老司機都懂的:-D。然後有一次好幾天沒上，堆了好些沒弄，心想：cao，這好麻煩啊，能不能寫個腳本自動幫我搞？然後忽然就想到，這是不是就是所謂

程序基址與變量地址偏移初探

遵從 log span 使用去掉空間 .com 內存範圍 1.這個程序是我對程序基地址和偏移量的一個測試程序，先上代碼，代碼運行的主要任務是打印各種變量和函數的地址 1 #include<stdlib.h> 2 #include<stdio.h

lucene 初探

相關推薦