Solr原理?為什麼要用Solr?Solr為什麼比較快?
什麼是Solr?
Solr是一個用java開發的基於lucene引擎的 全文搜尋 平臺,原理是倒排索引,從關鍵字到文件的過程,Solr的資源都是以Doc為物件進行儲存的,每個文件都由一系列的field構成,每個field表示資源的一個屬性,文件的fied可以被索引,用於提高效能的搜尋效率,一般情況下文件都包含一個能唯一表示該文件的id欄位。
Solr原理?
倒排索引
通過value查詢key,假設文章1 內容為123,文章2 內容為 456,文章3 內容為 789,
Solr有個功能是分詞,先把文章123匯入到伺服器後,文章1切成1,2,3 ,原本123是文章內容,分詞後,123變為三個 單獨的索引,1,2,3相當於key,文章為value,文章2 和3與1類似,切成456789六個索引,他們的value就是文章序號2和3.
索引為什麼快?
索引以檔案的形式儲存在磁碟上,所以只使用更少的磁碟io 次數的資料結構更適合做索引。b 樹和b+樹是是多叉樹,樹的度大,所以高度低。記憶體和磁碟互動的單位是頁,將b 樹和b+樹的一個節點的大小設定為一個頁,能保證一次io 就能讀到一個頁,同時磁碟採用預讀策略,一次性讀取相鄰的幾個頁,讀入記憶體後在進行二分查詢。
簡單說就是因為索引使用B+樹,空間換時間 。
為什麼要用Solr?
隨意的資料不可能是根據資料庫的欄位查詢的,那是怎麼查詢出來的呢,為什麼千奇百怪的關鍵字都可以查詢出來呢?
答案就是全文檢索工具的實現,luncence採用了詞元匹配和切分詞。舉個例子:北京天安門----luncence切分詞:北京 京天 天安 安門 等等這些分詞。所以我們搜尋的時候都可以檢索到。
有一種分詞器就是IKanalyzer中文分詞器,它有細粒度切分和智慧切分,即根據某種智慧演算法。
這就使用solr的最大的好處:檢索功能的實現。
Solr為什麼比較快?
倒排索引,使用solr的分詞過後嗎,通過二分法與排序好的索引進行匹配,進而快速查到定位文件
空間換時間
操作:
主要是SolrTemplate完成文件操作和搜尋
SolrTemplate
、Query
、Criteria
solr會考慮叢集
solr索引庫在商品狀態發生改變的時候(稽核通過、刪除),會通過activeMQ通知更新。
solr搜尋結果,