1. 程式人生 > >開源搜尋引擎Lucene、Solr、Sphinx等優劣勢比較

開源搜尋引擎Lucene、Solr、Sphinx等優劣勢比較

開源搜尋引擎分類

1.Lucene系搜尋引擎,java開發,包括:

  • Lucene

  • Solr

  • Elasticsearch

  • Katta、Compass等都是基於Lucene封裝。

你可以想象Lucene繫有多強大。

2.Sphinx搜素引擎,c++開發,簡單高效能。

以下重點介紹最常用的開源搜素引擎:Lucene、Solr、Elasticsearch、Sphinx的特點和優劣勢選型比較。

Lucene

1.Lucene簡介

Lucene的開發語言是Java,也是Java家族中最為出名的一個開源搜尋引擎,在Java世界中已經是標準的全文檢索程式,它提供了完整的查詢引擎和索引引擎,沒有中文分詞引擎,需要自己去實現,因此用Lucene去做一個搜素引擎需要自己去架構,另外它不支援實時搜尋。但是solr和elasticsearch都是基於Lucene封裝。

2.Lucene的優劣勢

優點:

成熟的解決方案,有很多的成功案例。apache 頂級專案,正在持續快速的進步。龐大而活躍的開發社群,大量的開發人員。它只是一個類庫,有足夠的定製和優化空間:經過簡單定製,就可以滿足絕大部分常見的需求;經過優化,可以支援 10億+ 量級的搜尋。

缺點:

需要額外的開發工作。所有的擴充套件,分散式,可靠性等都需要自己實現;非實時,從建索引到可以搜尋中間有一個時間延遲,而當前的“近實時”(Lucene Near Real Time search)搜尋方案的可擴充套件性有待進一步完善

Apache Solr

阿里P8架構師談:開源搜尋引擎Lucene、Solr、Sphinx等優劣勢比較

 

1.Slor簡介

Solr是一個高效能,採用Java開發,基於Lucene的全文搜尋伺服器。

文件通過Http利用XML加到一個搜尋集合中。

查詢該集合也是通過 http收到一個XML/JSON響應來實現。它的主要特性包括:高效、靈活的快取功能,垂直搜尋功能,高亮顯示搜尋結果,通過索引複製來提高可用性,提 供一套強大Data Schema來定義欄位,型別和設定文字分析,提供基於Web的管理介面等。

2.Solr的優缺點

優點

  1. Solr有一個更大、更成熟的使用者、開發和貢獻者社群。

  2. 支援新增多種格式的索引,如:HTML、PDF、微軟 Office 系列軟體格式以及 JSON、XML、CSV 等純文字格式。

  3. Solr比較成熟、穩定。

  4. 不考慮建索引的同時進行搜尋,速度更快。

缺點

  1. 建立索引時,搜尋效率下降,實時索引搜尋效率不高。

Elastic Search

阿里P8架構師談:開源搜尋引擎Lucene、Solr、Sphinx等優劣勢比較

 

1.ElasticSearch簡介

ElasticSearch是一個基於Lucene構建的開源,分散式,RESTful搜尋引擎。設計用於雲端計算中,能夠達到實時搜尋,穩定,可靠,快速,安裝使用方便。支援通過HTTP使用JSON進行資料索引。

2.Elasticsearch的優缺點

優點

  1. Elasticsearch是分散式的。不需要其他元件,分發是實時的,被叫做”Push replication”。

  2. Elasticsearch 完全支援 Apache Lucene 的接近實時的搜尋。

  3. 處理多租戶(multitenancy)不需要特殊配置,而Solr則需要更多的高階設定。

  4. Elasticsearch 採用 Gateway 的概念,使得完備份更加簡單。

  5. 各節點組成對等的網路結構,某些節點出現故障時會自動分配其他節點代替其進行工作。

缺點

  1. 還不夠自動(不適合當前新的Index Warmup API)

Elasticsearch 與 Solr 的比較總結

  • 二者安裝都很簡單;

  • Solr 利用 Zookeeper 進行分散式管理,而 Elasticsearch 自身帶有分散式協調管理功能;

  • Solr 支援更多格式的資料,而 Elasticsearch 僅支援json檔案格式;

  • Solr 官方提供的功能更多,而 Elasticsearch 本身更注重於核心功能,高階功能多有第三方外掛提供;

  • Solr 在傳統的搜尋應用中表現好於 Elasticsearch,但在處理實時搜尋應用時效率明顯低於 Elasticsearch。

總之,Solr 是傳統搜尋應用的有力解決方案,但 Elasticsearch 更適用於新興的實時搜尋應用。

Sphinx

阿里P8架構師談:開源搜尋引擎Lucene、Solr、Sphinx等優劣勢比較

 

1.Sphinx簡介

Sphinx一個基於SQL的全文檢索引擎,特別為一些指令碼語言(PHP,Python,Perl,Ruby)設計搜尋API介面。

Sphinx是一個用C++語言寫的開源搜尋引擎,也是現在比較主流的搜尋引擎之一,在建立索引的事件方面比Lucene快50%,但是索引檔案比Lucene要大一倍,因此Sphinx在索引的建立方面是空間換取事件的策略,在檢索速度上,和lucene相差不大,但檢索精準度方面Lucene要優於Sphinx,另外在加入中文分詞引擎難度方面,Lucene要優於Sphinx.其中Sphinx支援實時搜尋,使用起來比較簡單方便.

Sphinx可以非常容易的與SQL資料庫和指令碼語言整合。當前系統內建MySQL和PostgreSQL 資料庫資料來源的支援,也支援從標準輸入讀取特定格式 的XML資料。通過修改原始碼,使用者可以自行增加新的資料來源(例如:其他型別的DBMS 的原生支援)

2.Sphinx的特點

  • 高速的建立索引(在當代CPU上,峰值效能可達到10 MB/秒);

  • 高效能的搜尋(在2 – 4GB 的文字資料上,平均每次檢索響應時間小於0.1秒);

  • 可處理海量資料(目前已知可以處理超過100 GB的文字資料, 在單一CPU的系統上可 處理100 M 文件);

  • 提供了優秀的相關度演算法,基於短語相似度和統計(BM25)的複合Ranking方法;

  • 支援分散式搜尋;

  • 支援短語搜尋

  • 提供文件摘要生成

  • 可作為MySQL的儲存引擎提供搜尋服務;

  • 支援布林、短語、詞語相似度等多種檢索模式;

  • 文件支援多個全文檢索欄位(最大不超過32個);

  • 文件支援多個額外的屬性資訊(例如:分組資訊,時間戳等);

  • 支援斷詞;

  • PS:關注360linker公眾號,入官方社群取免費視訊教程、知名單位招聘資訊。交流分享IT圈學習經驗。