用SQLite進行全文檢索
對於應用軟體開發人員來說,要解決這個問題有許多的方案可以選擇。如,利用MySQL和PostgreSQL或者Sphinx和Lucene這樣的獨立軟體進行本地執行。然而,這些要麼用起來棘手,要麼就過度了。
幸運的是,Google為SQLite貢獻了一些資源以實現幫助。在版本3.3.8中第一次實現全文檢索。此版本提供的功能可以建立一個依賴於外部延伸的虛擬表:在這裡,全文搜尋運演算法則可用於任何虛擬表內的文字列。在PHP 5.3.0中,對應的支援只被預設的PDO和SQLite3啟用。較早版本的PHP可以使用PECL 的SQLite3擴充套件庫。
建立一個搜尋索引通常情況如下:
• 把文字分解成記號。
• 轉換為小寫字母。
• 確定根詞。
• 建立索引。
設定好一切
對於應用軟體開發人員來說,要解決這個問題有許多的方案可以選擇。如,利用MySQL和PostgreSQL或者Sphinx和Lucene這樣的獨立軟體進行本地執行。然而,這些要麼用起來棘手,要麼就過度了。幸運的是,Google為SQLite貢獻了一些資源以實現幫助。在版本3.3.8中第一次實現全文檢索。此版本提供的功能可以建立一個依賴於外部延伸的虛擬表:在這裡,全文搜尋運演算法則可用於任何虛擬表內的文字列。在PHP 5.3.0中,對應的支援只被預設的PDO和SQLite3啟用。較早版本的PHP可以使用PECL 的SQLite3擴充套件庫。
建立一個搜尋索引通常情況如下:
• 把文字分解成記號。
• 轉換為小寫字母。
• 確定根詞。
• 建立索引。
設定好一切
在預設情況下,SQLite提供了兩個基本的分詞器,Simple和Porter。它們可以控制字的分開方式。Simple根據空格和標點符號將文字分解成不同的記號。Porter是專為英文使用而設計,它可以將大量的文字擴充套件化解為基礎形式。例如,condolidate,consolidated,和consolidating這一類詞語都會被轉變成consolid。
遺憾的是,SQLite目前還沒有取消停用詞。所以常用詞,例如,the,of和to仍位於索引內。這會極大地擴充索引的範疇並減緩搜尋速度。最簡單的解決辦法是,在按下確認檢索之前手動除去停用詞。
下面,向您展示一些程式碼,教你如何建立自己的第一個全文索引。 SQLite之所以做到這些,是因為它通過使用FTS3擴充套件建立一個虛擬表。只有文字列位於這個虛擬表以內時,才可以被搜尋,並且最後一列用來識別使用的分詞器型別。
CREATE VIRTUAL TABLE example
USING FTS3(title TEXT, TOKENIZE SIMPLE) |
一旦你鍵入一些資料,你就可以試試。本文中其餘的例子,我會使用出自英文版維基百科的所有標題。我的資料庫有5,453,838行,相比較於沒有索引時的146MB,若使用全文索引,其大小是233MB。
檢索
搜尋索引由匹配操作完成。查詢可以包含多個方面,在這種情況下,只有文字行包含所有條件時才返回。還有支援“OR”的查詢,但該查詢排除了條件,精確的片語匹配以及字首檢索。
SELECT rowid, title FROM example WHERE title MATCH 'tea bag'
SELECT rowid, title FROM example WHERE title MATCH 'tea OR bag' SELECT rowid, title FROM example WHERE title MATCH 'tea -bag' SELECT rowid, title FROM example WHERE title MATCH '"tea bag"' SELECT rowid, title FROM example WHERE title MATCH 'tea*' |
請注意:OR區分大小寫,並且在一次查詢中只允許一個MATCH操作。
建立片段
為了向匹配的搜尋結果提供語境,可以使用snippet()功能。這一功能將突出顯示搜尋結果中任何文字列的關鍵詞。
SELECT title, snippet(example)
FROM example WHERE title MATCH 'Advent' ADVENT|ADVENT Advent|Advent Advent,_Cornwall|Advent,_Cornwall Advent,_West_Virginia|Advent,_West_Virginia Advent:_One-Winged_Angel|Advent:_One-Winged_Angel Advent_(band)|Advent_(band) |
非英語的標記
可以通過ICU(指令控制單元)庫提供的一些基本功能實現對非英語文字進行全文檢索的願望。這個庫是PHP 6 的一個核心部分,該庫通過在intl 擴充套件的PHP5.3中也可得。這兩種情況下的SQLite將有更多的分詞器。
在ICU分詞器將根據語言規則和指定的區域識別詞語,然後按照界定拆分。這種方法只適用於某些地域。句法如下:
CREATE VIRTUAL TABLE example
USING FTS3(title TEXT, TOKENIZE icu en_GB) |