使用solr搭建你的全文檢索
Solr 是一個可供企業使用的、基於 Lucene 的開箱即用的搜尋伺服器。對Lucene不熟?那麼建議先看看下面兩篇文件:
一、 solr介紹
solr是基於Lucene Java搜尋庫的企業級全文搜尋引擎,目前是apache的一個專案。它的官方網址在http://lucene.apache.org/solr/ 。solr需要執行在一個servlet 容器裡,例如tomcat5.5。solr在lucene的上層提供了一個基於HTTP/XML的Web Services,我們的應用需要通過這個服務與solr進行互動。
二、 solr安裝和配置
關於solr的安裝和配置,這裡也有兩篇非常好的文件,作者同時也
下面主要說說需要注意的地方。
Solr的安裝非常簡單,下載solr的zip包後解壓縮將dist目錄下的war檔案改名為solr.war直接複製到tomcat5.5的webapps目錄即可。注意一定要設定solr的主位置。有三種方法。我採用的是在tomcat裡配置java:comp/env/solr/home的一個JNDI指向solr的主目錄(example目錄下),建立/tomcat55/conf/Catalina/localhost/solr.xml檔案。
<Context docBase="D:/solr.war" debug="0" crossContext
觀察這個指定的solr主位置,裡面存在兩個資料夾:conf和data。其中conf裡存放了對solr而言最為重要的兩個配置檔案schema.xml和solrconfig.xml。data則用於存放索引檔案。
schema.xml主要包括types、fields和其他的一些預設設定。
solrconfig.xml用來配置Solr的一些系統屬性,例如與索引和查詢處理有關的一些常見的配置選項,以及快取、擴充套件等等。
上面的文件對這兩個檔案有比較詳細的說明,非常容易上手。注意到schema.xml裡有一個
<uniqueKey>url</uniqueKey>的配置,這裡將url欄位作為索引文件的唯一識別符號,非常重要。