Lucene--Field域和索引維護

阿新 • • 發佈：2019-02-07

Lucene–Field域和索引維護

一、Field域

1.Field屬性

Field是文件中的域，包括Field名和Field值兩部分，一個文件可以包括多個Field，Document只是Field的一個承載體，Field值即為要索引的內容，也是要搜尋的內容。

是否分詞(tokenized)

是：作分詞處理，即將Field值進行分詞，分詞的目的是為了索引。
比如：商品名稱、商品簡介等，這些內容使用者要輸入關鍵字搜尋，由於搜尋的內容格式大、內容多需要分詞後將語彙單元索引。

否：不作分詞處理
比如：商品id、訂單號、身份證號等

是否索引(indexed)

是：進行索引。將Field分詞後的詞或整個Field值進行索引，索引的目的是為了搜尋。
比如：商品名稱、商品簡介分析後進行索引，訂單號、身份證號不用分析但也要索引，這些將來都要作為查詢條件。

否：不索引。該域的內容無法搜尋到
比如：商品id、檔案路徑、圖片路徑等，不用作為查詢條件的不用索引。

是否儲存(stored)

是：將Field值儲存在文件中，儲存在文件中的Field才可以從Document中獲取。
比如：商品名稱、訂單號，凡是將來要從Document中獲取的Field都要儲存。

否：不儲存Field值，不儲存的Field無法通過Document獲取
比如：商品簡介，內容較大不用儲存。如果要向用戶展示商品簡介可以從系統的關係資料庫中獲取商品簡介。

如果需要商品描述，則根據搜尋出的商品ID去資料庫中查詢，然後顯示出商品描述資訊即可。

2.Field常用型別

開發中常用的Filed型別，注意Field的屬性，根據需求選擇：

Field常用型別.PNG

3.Field改進程式碼

圖書id：

是否分詞：不用分詞，因為不會根據商品id來搜尋商品 
是否索引：不索引，因為不需要根據圖書ID進行搜尋
是否儲存：要儲存，因為查詢結果頁面需要使用id這個值。

圖書名稱：

是否分詞：要分詞，因為要將圖書的名稱內容分詞索引，根據關鍵搜尋圖書名稱抽取的詞。
是否索引：要索引。
是否儲存：要儲存。

圖書價格：

是否分詞：要分詞，lucene對數字型的值只要有搜尋需求的都要分詞和索
引，因為lucene對數字型的內容要特殊分詞處理，本例子可能要根據價格範
圍搜尋，需要分詞和索引。
是否索引：要索引
是否儲存：要儲存

圖書圖片地址：

是否分詞：不分詞
是否索引：不索引
是否儲存：要儲存

圖書描述：

是否分詞：要分詞
是否索引：要索引
是否儲存：因為圖書描述內容量大，不在查詢結果頁面直接顯示，不儲存。
不儲存是來不在lucene的索引檔案中記錄，節省lucene的索引檔案空間，
如果要在詳情頁面顯示描述，思路：
從lucene中取出圖書的id，根據圖書的id查詢關係資料庫中book表
得到描述資訊。

程式碼：

@Test
public void createIndex() throws Exception {
    // 採集資料
    BookDao dao = new BookDaoImpl();
    List<Book> list = dao.queryBooks();

    // 將採集到的資料封裝到Document物件中
    List<Document> docList = new ArrayList<>();
    Document document;
    for (Book book : list) {
        document = new Document();
        // store:如果是yes，則說明儲存到文件域中
        // 圖書ID
        // 不分詞、索引、儲存 StringField
        Field id = new StringField("id", book.getId().toString(), Store.YES);
        // 圖書名稱
        // 分詞、索引、儲存 TextField
        Field name = new TextField("name", book.getName(), Store.YES);
        // 圖書價格
        // 分詞、索引、儲存 但是是數字型別，所以使用FloatField
        Field price = new FloatField("price", book.getPrice(), Store.YES);
        // 圖書圖片地址
        // 不分詞、不索引、儲存 StoredField
        Field pic = new StoredField("pic", book.getPic());
        // 圖書描述
        // 分詞、索引、不儲存 TextField
        Field description = new TextField("description",
                book.getDescription(), Store.NO);

        // 設定boost值
        if (book.getId() == 4)
            description.setBoost(100f);

        // 將field域設定到Document物件中
        document.add(id);
        document.add(name);
        document.add(price);
        document.add(pic);
        document.add(description);

        docList.add(document);
    }

二、索引維護

需求：

管理人員通過電商系統更改圖書資訊，這時更新的是資料庫，如果使用lucene搜尋圖書資訊需要在資料庫表book資訊變化時及時更新lucene索引庫。

1.新增索引

呼叫 indexWriter.addDocument（doc）新增索引。

@Test
public void createIndex() throws Exception {
    // 採集資料
    BookDao dao = new BookDaoImpl();
    List<Book> list = dao.queryBooks();

    // 將採集到的資料封裝到Document物件中
    List<Document> docList = new ArrayList<>();
    Document document;
    for (Book book : list) {
        document = new Document();
        // store:如果是yes，則說明儲存到文件域中
        // 圖書ID
        Field id = new TextField("id", book.getId().toString(), Store.YES);
        // 圖書名稱
        Field name = new TextField("name", book.getName(), Store.YES);
        // 圖書價格
        Field price = new TextField("price", book.getPrice().toString(),
                Store.YES);
        // 圖書圖片地址
        Field pic = new TextField("pic", book.getPic(), Store.YES);
        // 圖書描述
        Field description = new TextField("description",
                book.getDescription(), Store.YES);

        // 將field域設定到Document物件中
        document.add(id);
        document.add(name);
        document.add(price);
        document.add(pic);
        document.add(description);

        docList.add(document);
    }

    // 建立分詞器，標準分詞器
    Analyzer analyzer = new StandardAnalyzer();

    // 建立IndexWriter
    IndexWriterConfig cfg = new IndexWriterConfig(Version.LUCENE_4_10_3,
            analyzer);
    // 指定索引庫的地址
    File indexFile = new File("E:\\11-index\\hm19\\");
    Directory directory = FSDirectory.open(indexFile);
    IndexWriter writer = new IndexWriter(directory, cfg);

    // 通過IndexWriter物件將Document寫入到索引庫中
    for (Document doc : docList) {
        writer.addDocument(doc);
    }

    // 關閉writer
    writer.close();
}

2.刪除索引

2.1刪除指定索引

根據Term項刪除索引，滿足條件的將全部刪除。

Term是索引域中最小的單位。根據條件刪除時，建議根據唯一鍵來進行刪除。在solr中就是根據ID來進行刪除和修改操作的。

@Test
public void deleteIndex() throws Exception {
    // 建立分詞器，標準分詞器
    Analyzer analyzer = new StandardAnalyzer();

    // 建立IndexWriter
    IndexWriterConfig cfg = new IndexWriterConfig(Version.LUCENE_4_10_3,
            analyzer);
    Directory directory = FSDirectory
            .open(new File("E:\\11-index\\hcx\\"));
    // 建立IndexWriter
    IndexWriter writer = new IndexWriter(directory, cfg);

    // Terms
    writer.deleteDocuments(new Term("id", "1"));

    writer.close();
}

2.2刪除全部索引（慎用）

將索引目錄的索引資訊全部刪除，直接徹底刪除，無法恢復。慎用！

// 刪除索引
@Test
public void deleteIndex() throws Exception {
    // 1、指定索引庫目錄
    Directory directory = FSDirectory.open(new File("E:\\11-index\\0720"));
    // 2、建立IndexWriterConfig
    IndexWriterConfig cfg = new IndexWriterConfig(Version.LATEST,
            new StandardAnalyzer());
    // 3、 建立IndexWriter
    IndexWriter writer = new IndexWriter(directory, cfg);
    // 4、通過IndexWriter來刪除索引
    // a)、刪除全部索引
    writer.deleteAll();
    // 5、關閉IndexWriter
    writer.close();
}

建議參照關係資料庫基於主鍵刪除方式，所以在建立索引時需要建立一個主鍵Field，刪除時根據此主鍵Field刪除。

索引刪除後將放在Lucene的回收站中，Lucene3.X版本可以恢復刪除的文件，3.X之後無法恢復。

3.修改索引

更新索引是先刪除再新增，建議對更新需求採用此方法並且要保證對已存在的索引執行更新，可以先查詢出來，確定更新記錄存在執行更新操作。

@Test
public void updateIndex() throws Exception {
    // 建立分詞器，標準分詞器
    Analyzer analyzer = new StandardAnalyzer();

    // 建立IndexWriter
    IndexWriterConfig cfg = new IndexWriterConfig(Version.LUCENE_4_10_3,
            analyzer);

    Directory directory = FSDirectory
            .open(new File("E:\\11-index\\hcx\\"));
    // 建立IndexWriter
    IndexWriter writer = new IndexWriter(directory, cfg);

    // 第一個引數：指定查詢條件
    // 第二個引數：修改之後的物件
    // 修改時如果根據查詢條件，可以查詢出結果，則將以前的刪掉，然後覆蓋新的Document物件，如果沒有查詢出結果，則新增一個Document
    // 修改流程即：先查詢，再刪除，在新增
    Document doc = new Document();
    doc.add(new TextField("name", "lisi", Store.YES));
    writer.updateDocument(new Term("name", "zhangsan"), doc);

    writer.close();
}

Lucene--Field域和索引維護

Lucene–Field域和索引維護一、Field域 1.Field屬性 Field是文件中的域，包括Field名和Field值兩部分，一個文件可以包括多個Field，Document只是Field的一個承載體，Field值即為要索引的內容，也是

Oracle的索引分裂和索引維護（精）

索引不是建好了就行了？難道還需要維護？帶著這個問題，開啟本篇部落格。我們知道索引的資料結構是B樹，每次更新資料都會對索引進行更新，所以如果是一張訂單表，看起來這張表會一直在增長，並且訂單表會經受一定的高併發考驗（比如各種大促活動，秒殺活動）。對於開發人員來說，好像只對表操作就可以了，不

Oracle的索引分裂和索引維護

索引不是建好了就行了？難道還需要維護？帶著這個問題，開啟本篇部落格。我們知道索引的資料結構是B樹，每次更新資料都會對索引進行更新，所以如果是一張訂單表，看起來這張表會一直在增長，並且訂單表會經受一定的高併發考驗（比如各種大促活動，秒殺活動）。對於開發人員來說，

Lucene——Field.Store（存儲域選項）及Field.Index（索引選項）

時間文本 tor pan -s gpo index 進行 field Field.Store.YES或者NO（存儲域選項）設置為YES表示或把這個域中的內容完全存儲到文件中，方便進行文本的還原設置為NO表示把這個域的內容不存儲到文件中，但是可以被索引，此時內容無法完全

lucene查詢之 TermQuery，通過項查詢，及程式碼示例；TermQuery不使用分析器所以建議匹配不分詞的Field域查詢

1.1.1. TermQuery TermQuery，通過項查詢，TermQuery不使用分析器所以建議匹配不分詞的Field域查詢，比如訂單號、分類ID號等。指定要查詢的域和要查詢的關鍵詞。 /

Lucene建立索引和索引的基本檢索

Author：百知教育 gaozhy 注：演示程式碼所使用jar包版本為 lucene-xxx-5.2.0.jar lucene索引操作建立索引程式碼 try {

C＃中的域（field）和屬性（property）_C#教程

訪問一個類的成員變數可以有兩種方式：域、屬性。域作為public型別的成員變數訪問，而屬性不能直接進行訪問，必須通過訪問器（accessors）進行。域（field）域（field）－域表示與物件或類相關聯的變數。－域的宣告中如果加上了readonly修飾符

mysql-不恰當的update語句使用主鍵和索引導致mysql死鎖

行修改 sql錯誤狀態還要錯誤日誌示意圖 http 概率最小背景知識：MySQL有三種鎖的級別：頁級、表級、行級。 MyISAM和MEMORY存儲引擎采用的是表級鎖（table-level locking）；BDB存儲引擎采用的是頁面鎖（page-level l

ajax主域和子域之間的跨域問題

復制 jquery對象 body content iframe .com post {} log 【轉發】http://www.cnblogs.com/adtxgc/p/4691872.html iframe解決ajax主域和子域之間的跨域問題在某些應用場景下，需

Ajax跨域、Json跨域、Socket跨域和Canvas跨域等同源策略限制的解決方法

b2c editor spec acache 查詢方案 fin agent pla 同源是指同樣的協議、域名、port，三者都同樣才屬於同域。不符合上述定義的請求，則稱為跨域。相信每一個開發者都曾遇到過跨域請求的情況，盡管情況不一樣，但問題的本質都能夠歸為瀏覽器出

【 js 基礎】作用域和閉包

代碼 var 垃圾回收器間接 undefined scrip 運行時例子解析一、編譯過程常見編譯性語言，在程序代碼執行之前會經歷三個步驟，稱為編譯。步驟一：分詞或者詞法分析將由字符組成的字符串分解成有意義的代碼塊，這些代碼塊被稱為詞法單元。例子： v

MongoDB數據模型和索引學習總結

-c 指定 explain creat 生效上下通信協議必須數據類型 MongoDB數據模型和索引學習總結 1. MongoDB數據模型： MongoDB數據存儲結構： MongoDB針對文檔（大文件採用GridFS協議）採用BSON（binary jso

主鍵和索引的區別

存在這一需要實體完整性主鍵可能數據庫創建表但是主鍵（PRIMARY KEY）表通常具有包含唯一標示表中每一行的值的一列或者一組列。這樣的一列或者多列稱為表的主鍵（PK），用於強制表的屍體完整性。在創建或者修改表時，您可以通過定義PK約束來創建主鍵。一個

javascript變量、作用域和內存問題

regexp 技術分享存在 ring 作用域鏈字符串影響指向 bool 一.基本類型（傳值後兩者不互相影響） 5種：Undefined、Boolean、Null、Number、String 基本類型的賦值是傳遞該值得副本。兩者可以參與任何操作而不受影響。二.引用類

lucene之創建索引代碼

dao 根據 arr conf document 通過數據 getname pan public void createIndex() throws IOException { // 第一步采集數據：(jdbc采集數據) BookDao dao = new BookDao

Oracle 11.2.0.4.0 Dataguard部署和日常維護(6)-Active dataguard

ima file man log role 主備 span for current 1. 檢查主備庫的狀態 on primary column DATABASE_ROLE format a20 column OPEN_MODE format a15 column PR

JavaScript中變量、作用域和內存問題（JavaScript高級程序設計第4章）

外部對象的引用 pan object 揮手 fun 可用內存限制 argument 一、變量（1）ECMAScript變量肯能包含兩種不同的數據類型的值：基本類型值和引用類型值。基本類型值指的是簡單的數據段，引用類型值指那些可能由多個值構成的對象。（2）基本數據類型

js——作用域和閉包

如果分布式系統 ren 移植 font 寫代碼一次運行時屏蔽 1. js是編譯語言，但是它不是提前編譯，編譯結果不能在分布式系統中移植。大部分情況下，js的編譯發生在代碼執行前的幾微秒（甚至更短） 2. 一般的編譯步驟分詞/詞法分析：把字符串分解成詞法單元

Mongodb基本操作入門,增刪改查和索引

less multi zhang 一個 attribute var sin 第一個 base 主要進程 mongod.exe為啟動數據庫實例的進程。 mongo是一個與mongod進程進行交互的JavaScript shell進程，它提供了一些交互的接口函數用戶

如何部署林根域、子域和域樹

張兆森如何部署林根域、子域和域樹標簽：張兆森實驗環境：這是兩個不同的林根域，在林中創建的第一個域叫做林的根域。（1）、如何創建林根域步驟：1運行dcpromo命令，選擇“在新林中新建域”2、輸入新域的域名3、一直點擊下一步，直到安裝完成即可是一個林根域（2）、如何創建子域步驟：DNS

Lucene--Field域和索引維護