《開發自己的搜尋引擎》讀書筆記——Lucene搜尋

阿新 • • 發佈：2018-12-30

使用IndexSearcher進行搜尋

Lucene搜尋相關的API多數都被包含在org.apache.lucene.search包中。其中，最重要的是IndexSearcher類。

（1）、IndexSearcher有三個public的建構函式，均以索引的存放目錄作為引數。

（2）、IndexSearcher的最簡單使用

IndexSearcher searcher = newIndexSearcher(INDEX_STORE_PATH);

Term t = newTerm("bookname","女");

Query q = new TermQuery(t);

Hits hits =searcher.search(q);

for(int i =0;i<hits.length();i++){

System.out.println(hits.doc(i));

}

（3）幾個類

Query：表示一次查詢；

Hits：表示一次查詢的結果；

Filter：表示對索引中文件集合的過濾器。它使檢索在某一個文件集合的子集中進行；

Sort：對索引的結果進行排序的工具；

HitCollector：對檢索結果進行選擇的一個工具；

Weight：就是權重，表示一次查詢時，索引中的某個文件的重要性。
Hits類

（1）、length（）取得當前結果集的數量；

doc(intn)取得當前結果集中第n個Document；

floatscore(int n)取得當前結果集中第n個Document的得分；

intid(int n)取得當前結果集中第n個Document的索引內部id值

Iteratoriterator（）取得對Hits集合的遍歷物件
對搜尋結果評分
構建各種Lucene內建的Query物件

TermQuery詞條搜尋

一個Term物件包括有兩個資訊。它們分別為詞條本身文字內容和詞條所在的Field資訊。在TermQuery的建構函式中，需要這樣一個Term物件來作為其引數。然後，使用IndexSearcher的search(Query)方法得到所需要的結果。
BooleanQuery布林搜尋

在布林查詢的物件中，包含一個子句的集合，各個子句間都是如“與”、“或”這樣的布林邏輯。

BooleanClause.Occur類主要有3種表示，即MUST、MUST_NOT和SHOULD。

SHOULD是一個比較特殊的約束，當它與MUST聯用時，它將失去意義。檢索的結果為MUST子句的檢索結果。當它與MUST_NOT聯用時，SHOULD的功能就與MUST一樣，就退變為MUST和MUST_NOT的查詢結果。當SHOULD與SHOULD聯用時，它們就表示一種“或”關係。最終檢索結果為所有檢索子句的檢索結果的並集。

BooleanQuery的預設最大子句數量為1024.如果超過了這個數量，Lucene會丟擲一個TooManyClauses的異常。但是使用者也可以通過提供的介面來修改這個最大子句數量。

子句並非只能進行TermQuery那樣的院子查詢，也可以進行如BooleanQuery這樣的複合型別查詢。
RangeQuery範圍搜尋

查詢一定範圍內的文件，這種範圍可以是時間、日期、數字大小等。
PrefixQuery字首搜尋

比如，到圖書館查詢一本書，可能只記得書名的最前面幾個字。
PhraseQuery短語搜尋

PhraseQuery提供了一種稱為“坡度”的引數，它用於表示片語的兩個字之間可以插入無關字的個數。該值預設為0，但是可以通過setSlop方法修改這個值。
MultiPhraseQuery多短語搜尋

可以對多個短語同時進行檢索。每一次add都是一波並列。
FuzzyQuery模糊搜尋

可以進行單字的模糊查詢，模糊查詢所使用的演算法被稱為levenshtein演算法。這種演算法在比較兩個字串時，將動作分為3種：

          加一個字母（insert）；

          刪一個字母（delete）；

          改變一個字母（substitute）。

兩個字串之間進行比較時，就是執行將其中一個字串，轉變為另一個字串的操作。每執行一項上述操作，則相應的扣除一定分數。當比較完畢，也就是轉變完畢，此時的得分被稱為兩者之間的距離，也可以叫做模糊度。
WildcardQuery萬用字元搜尋

通常情況下，用“*”表示任意長的字串，用“？”表示一個單一的字元。
SpanQuery跨度搜索

第三方提供的Query物件：RegexQuery

結合正則表示式。
通過QueryParser轉換使用者關鍵字

詞條定義。詞條與詞條之間要用空格隔開；另外有些使用引號包圍起來的關鍵字串均包含兩個詞條。
在QueryParser中，使用與建立索引時相同的分析器，是為了確保使用者在輸入、分詞時能夠和索引中的內容相一致。在QueryParser的建構函式中，要為QueryParser賦一個預設的field。這是因為通常情況下，使用者並不知道後臺的索引中都有哪些Field，而讓使用者來指定Field是一個不友好的行為，因此需要告知QueryParser一個預設的Field資訊。在使用者未指定時，則告知Lucene按預設的Field進行檢索。
改變QueryParser預設的布林邏輯。
短語和QueryParser。

在PharseQuery的最後使用一個“~”來表示其坡度值。
FuzzyQuery的預設匹配度為0.5
建立索引時，如果按照日期表示的字串來進行索引，那麼在RangeQuery時，實際上比較的是字串的字典順序。而若首先將日期轉化為以毫秒計算的時間，則可以精確地比較兩個日期的大小了。建議在使用Lucene時，當遇到日期型資料時，都先使用DateTools進行轉換，再進行索引。

《開發自己的搜尋引擎》讀書筆記——Lucene搜尋

使用IndexSearcher進行搜尋 Lucene搜尋相關的API多數都被包含在org.apache.lucene.search包中。其中，最重要的是IndexSearcher類。（1）、Ind

《JavaScript設計模式與開發實踐》讀書筆記

寫在前面：設計模式這本書讀了一點點，發現這本書並不是死板的去搬運傳統計算機語言的設計模式，而是會結合js特色的行情來加以解讀和拓展，並且在書中所用到的一些程式設計技巧對於平時的開發和學習有很大的借鑑作用。總而言之，這是一本有靈魂的書。所以我打算打打魚，晒晒網，寫點讀

《Spark核心原始碼分析與開發實戰》讀書筆記之一

第1章 Spark系統概述 1.1 Spark是什麼 1. Spark比Hadoop快在哪裡（1）Spark使用記憶體計算，而Hadoop使用IO （2）Hadoop的計算是按部就班一步一步進行的，而Spark則是提前生成了DAG，優化了運算路徑 1.2 Sp

Android開發藝術探索讀書筆記----View事件體系1

View的概念：View是android中所有控制元件的基類。ViewGroup繼承自View，內部可以有多個控制元件也可以由Viewgroup（譬如LinearLayout） View的位置引數：top:左上角縱座標，left:右上角橫座標，right:右下角橫座標，bo

《AV Foundation 開發祕籍》讀書筆記（一）

第一章 AV Foundation 簡介 1991 年蘋果推出了 Quick Time 首次將數字音訊和數字視訊展現在使用者面前，Quick Time 架構在之後 20 年間給數字多媒體這一領域帶來了變革，對教育、遊戲、娛樂產業的發展影響巨大。但是隨著時間的推

Android開發藝術探索讀書筆記（一）

首先向各位嚴重推薦主席這本書《Android開發藝術探索》。再感謝主席邀請寫這篇讀書筆記＋書評。書已經完整的翻完一遍了，但是還沒有細緻的品讀並run程式碼，最近有時間正好系統的把整本書從內容到程式碼都梳理一遍，一方面方便自己總結，一方面也為主席宣

《開發自己的搜尋引擎》讀書筆記——索引的建立

11、Segment 在每個segment裡，有許多的Document，在一個索引中，可能有多個segment。Lucene對索引管理的最大單位就是segment。每個segment內的所有索引檔案都具有相同的字首。在一個索引中，只有一個“segments”檔案，這個檔案沒有後綴，它記錄著當前的索引內有多

Lucene讀書筆記——5. 高階搜尋技術

Lucene域快取為所有文件載入域值 float[] weigths = FieldCache.DEFAULT.getFloats(reader, "weight"); weights[docid] = the value of weight field. 域快取只能

drupal8 模塊開發讀書筆記 1

影響反轉 form module uil 例如 hide mac 模塊開發這個依賴註入有個管理的東西，假設是InjectionManager然後框架，比如說是Framework 現在Framework 想要實例化一個controller它就問InjectionMana

Ngine X 完全開發指南讀書筆記-前言

功能做什麽適合喜歡機會技術分享 gin 系統模仿　　一開始接觸的編程語言是VF，那是一種可視化編程語言，所謂的可視化，就是運行結果能直接看得到的，非常直觀，便於調試，適合剛剛接觸編程的新人學習。當時學得懵懂，半知半解，就是感覺程序非常神奇，常常幾句代碼，幾個單

讀書筆記之《高效程式設計師的45個習慣----敏捷開發之道》摘錄

讀書筆記之《高效程式設計師的45個習慣----敏捷開發之道》摘錄此次原創的意思是指這個文章中的內容是由筆者從《高效程式設計師的45個習慣----敏捷開發之道》書中摘錄，而不是別人摘錄的，但是內容並非筆者原創，所摘錄的內容的

文字上的演算法讀書筆記六--搜尋引擎

6 搜尋引擎是什麼玩意兒 Google這家搜尋引擎公司的巨大成功，才把文字處理技術推向了一個新的高度。 6.1 搜尋引擎原理假設Q為使用者要查詢的關鍵詞；為所有網頁集合中第i個網頁；表示給定一個Q,第i個網頁滿足了使用者需求的概率，那麼搜尋引擎乾的就是根據使用者的輸入Query（也包括

【讀書筆記】數學之美2-搜尋引擎

8.簡單之美——布林代數和搜尋引擎建立一個搜尋引擎大致需要做的幾件事情：自動下載儘可能多的網頁；建立快速有效的索引；根據相關性對網頁進行公平準確的排序。這就是搜尋的“道”。關鍵詞=布林運算（詞1，詞2，詞3）；接著判斷詞i是否在文獻中，以得到一串二進

INSPIRED啟示錄讀書筆記 - 第27章合理運用瀑布式開發方法

瀑布式開發方法的基本原則 1、採用階段式開發：軟體開發過程被事先分成固定的幾個階段，撰寫書面的需求說明文件、設計高層軟體架構、設計低層細節、編寫程式碼、測試、部署 2、採用階段式評審：每個階段結束後，對該階段提交的成果進行評審，評審通過後才能進入下一階段瀑布式開發方法有正式和非正式兩種形式 1、正式

《Java EE網際網路輕量級框架整合開發》讀書筆記

備註：匯入隨書程式碼剛開始看這本書，第一件事就是把程式碼匯入到eclipse中。隨書程式碼的目錄結構為：每一章就是一個工程，比如Chapter2, 如下：將程式碼匯入到eclipse 分兩個步驟：（1）開啟工程，點選“File”->“Open Project fro

3D數學基礎:圖形與遊戲開發_讀書筆記04

第六章3D介面類這本書的第六章主要寫了一個工具類,用作之前所描述的概念中向量的計算還有一些運算子的過載,是用C++寫的。因經驗等原因.我對程式碼設計方面還不是很瞭解，也沒有系統學習過C++,,總之先貼出本書章節中的C++程式碼。 #include<math.h>

3D數學基礎:圖形與遊戲開發_讀書筆記02

第四章概念(這一章也仍然是概念居多，應該要下一章才開始是計算的玩意) 標量標量是數字的技術稱謂，使用這個詞是想突出數值向量向量(或稱向量)是明確帶有大小和方向的數學物件，在程式裡通常表現為陣列。水平書寫的被稱為行向量，垂直書寫的被稱為列向量行向量 [1,2,3] 列

3D數學基礎:圖形與遊戲開發_讀書筆記01

前三章內容摘要通常技術書籍第一章都是為了介紹技術背景，數學書為了循序漸進也是很基礎的東西。就把重要的知識點抓出來 1）研究自然數和整數的領域稱作離散數學，研究實數領域叫做連續數學。 2）3D座標是由2D笛卡爾座標系衍生出來的，xz表示地面，y表示高度，而且上存在著3D兩種座標系（圖

《修煉之道:.NET開發要點精講》讀書筆記（三）

後幾章的習題 1.非同步呼叫開始後，什麼時候才能使用非同步執行的結果？ A：最好在EndInvoke()方法返回之後才能使用非同步執行的結果，其它時候不能保證非同步呼叫已完成。 2.委託的非同步呼叫開始後（即呼叫BeginInvoke方法後），EndInvoke方法是否可以在同一執行緒中

讀書筆記-Office 365開發入門指南

作者部落格 Office 365 開發概覽系列 - 隨筆分類 - 陳希章 - 部落格園 https://www.cnblogs.com/chenxizhang/category/967796.html 第一章概述 Office365的服務端整合在有Office 365之前,我們有著

《開發自己的搜尋引擎》讀書筆記——Lucene搜尋

相關推薦