1. 程式人生 > >Solr 4.x定時、實時增量索引

Solr 4.x定時、實時增量索引

  開始之前,可以參考上篇博文增量索引-資料匯入並索引:

          Solr增量索引配置

一、開始增量索引前的準備工作。

1、認識data-config.xml中相關屬性

       <!--  transformer 格式轉化:HTMLStripTransforme表示 索引中將忽略HTML標籤   ---> 

       <!--  query:  查詢資料庫表符合記錄資料   ---> 
       <!--  deltaQuery:增量索引   查詢主鍵ID    --->    注意這個query只返回ID欄位 
       <!--  deltaImportQuery:增量索引   查詢匯入的資料  ---> 
       <!--  deletedPkQuery:增量索引  刪除主鍵ID查詢  ---> 注意這個只返回ID欄位 

 最主要的是我們要知道這樣一個事實: last_index_time是DataImportHandler的一個預設欄位,(可檢視conf目錄下的dataimporter.properties檔案)

我們可以在任何SQL中引用,該欄位用於表明上次做full import或者是delta import(增量匯入)的最後一次時間。

2、資料庫配置注意事項

1)、如果只涉及新增與修改業務,那麼資料庫裡只需新增一個型別為timpstamp,預設值為當前系統時間的欄位 :CURRENT_TIMESTAMP(mysql) 

2)、如果還涉及刪除業務,那麼資料裡就需額外再多新增一個欄位isdelete,int型別的用0,1來標識,此條記錄是否被刪除,當然也可以用其他欄位標識,ture或false都可以 

 3、dataimporter.properties / {corename}_dataimporter.properties

在C:\solr-tomcat\solr\item\conf中檢視是否存在檔案dataimporter.properties,如果沒有,則新建該檔案。

這個配置檔案很重要,它是用來記錄索引的最新一次修改時間的,通過該配置檔案可以找出新增的、修改的或者刪除的記錄。相關例項:

在data-config中新增如下配置資訊。

  1. <dataConfig>      
  2.    <!--- 此段話配置的是一個MySQL的資料來源,(資料來源也可以配置在solrconfig.xml中)  --->  <dataSource name="activityDB"
     type="JdbcDataSource" driver="com.mysql.jdbc.Driver" url="jdbc:mysql://localhost/test" user="swang6" password="swang6"/>    
  3.        <document>            
  4.           <entity pk="ID"  dataSource="activityDB" name="myentity"  
  5.             query="select * from myentity WHERE isdelete=0"    
  6.          deltaQuery="select ID  from myentity where my_date >'${dih.last_index_time}'"    
  7.             deletedPkQuery="select ID from myentity where isdelete=1"  
  8.             deltaImportQuery="select * from myentity where ID='${dih.delta.id}">    
  9.           <!--  ID指定大寫的,與上面語句中的對應起來---->         
  10.           <field column="ID" name="id"/>    
  11.           <field column="name" name="name"/>    
  12.           <field column="address" name="address"/>    
  13.           <field column="age" name="age"/>    
  14.           <field column="my_date" name="my_date"/>    
  15.           <field column="isdelete" name="isdelete"/>    
  16.         </entity>  
  17.    </document>  
  18. </dataConfig>  

  1. <!-- pk="ID" 必須,因為其中的增量索引查詢主鍵ID時需要  -->    
  2.            <!--  dataSource="acitvityDB" 這個引用名字是引用上面資料來源的名字 -->    
  3.            <!--  name="myentity" 存在多個實體時,這個名字必須唯一 -->    
  4.            <!--  query:用於全量匯入而非增量匯入  
  5.            query="select * from myentity WHERE isdelete=0    
  6.            query查詢是指查詢出表裡所有的符合條件的資料,因為筆者測試的有刪除業務,所以    
  7.            where後面有一個限定條件isdelete=0,意思為查詢未被刪除的資料      
  8.            -->   
  9.           <!--  deltaQuery : 用於增量匯入且只返回ID  
  10.              deltaQuery="select ID  from myentity where my_date >  
  11.                  '${dih.last_index_time}'"    
  12.              deltaQuery的意思是,查詢出所有經過修改的記錄的ID    
  13.              可能是修改操作,新增操作,刪除操作產生的     
  14.           -->    
  15.          <!--  deletedPkQuery : 用於增量匯入且只返回ID  
  16.           deletedPkQuery="select ID from myentity where isdelete=1"      
  17.           此操作只查詢那些資料庫裡偽刪除的資料的ID(即isdelete標識為1的資料)    
  18.           solr通過它來刪除索引裡面對應的資料   
  19.          -->   
  20.          <!--  deltaImportQuery: 增量匯入起作用,可以返回多個欄位的值,一般情況下,都是返回所有欄位的列  
  21.        deltaImportQuery="select * from myentity where ID='${dih.delta.ID}'"  
  22.       deltaImportQuery查詢是獲取以上兩步的ID,然後把其全部資料獲取,根據獲取的資料    
  23.        對索引庫進行更新操作,可能是刪除,新增,修改          
  24.       -->  

注:如果有必要,則可以在schema.xml中新增一個timestamp的field

<field name="timestamp" type="date" indexed="true" stored="true" default="NOW" />

做了以上配置後,可以設定linux的cron job或者Spring 的TaskSchuduler或者Cron Job後,可以定時發url:

當然也可以用Solr自帶的Scheduler來做增量索引: