sql全文索引的工作原理,及其優化

阿新 • • 發佈：2019-01-08

學習如何充分利用 SQL Server 2000 的全文搜尋功能。本文包含有關實現最大吞吐率和最佳效能的幾點提示和技巧。
簡介
使用 Microsoft? SQL? Server 2000 的全文搜尋功能，可以對在非結構化文字資料上生成的索引執行快速、靈活的查詢。常用的全文搜尋工具是網站的搜尋引擎。為了幫助讀者理解全文搜尋功能的最佳使用方法，本文介紹了大量抽象概念；並對優化全文索引和查詢以實現最大吞吐率和最佳效能，提供了幾點提示和技巧。
全文搜尋功能簡介
全文搜尋功能在 SQL Server 7.0 中引入。全文搜尋的核心引擎建立在 Microsoft Search (MSSearch) 技術上，Microsoft Exchange 和 Microsoft SharePoint? Portal Server 等產品中也採用了此項技術。
SQL Server 7.0 全文搜尋中公開的功能可提供基本的文字搜尋功能，並使用早期版本的 MSSearch；而 SQL Server 2000 的全文搜尋實現則包含一組可靠的索引和查詢功能，並在 SQL Server 7.0 的基礎之上添加了幾項增強功能。這些增強功能包括：通過 Microsoft 群集服務完全支援群集操作，能夠過濾和索引 IMAGE 列中儲存的文件，提供改進的語言支援，以及在效能、可縮放性和可靠性方面進行了改進。
MSSearch 生成、維護和查詢檔案系統中（而不是 SQL Server 中）儲存的全文索引。MSSearch 進行全文索引時使用的邏輯和物理儲存單元是目錄。全文目錄在每個資料庫中包含一個或多個全文索引 - 可以為 SQL Server 中的每個表建立一個全文索引，且索引中可以包含該表中的一列或多列。每個表只能屬於一個目錄，且每個表只能建立一個索引。我們將簡單介紹有關組織全文目錄和索引的最佳方案 - 但首先，讓我們來簡單瞭解一下全文搜尋的工作原理。
配置全文搜尋功能
要為 SQL Server 中儲存的文字資料建立全文索引，應該先完成以下幾步準備工作。第一步是以全文方式啟用包含要生成索引的文字資料的資料庫（如果您尚未執行此操作）。
注意：執行以下語句將丟棄並重新建立屬於要啟用全文搜尋的資料庫的所有全文目錄。除非要重新建立全文目錄，否則請確保在要啟用的特定資料庫中未建立任何全文目錄。
如果您是 sysadmin 角色的成員或此資料庫的 db_owner，可以繼續進行併發出以下語句：
use Northwind
exec sp_fulltext_database 'enable'

接下來，您需要建立全文目錄，以儲存全文索引。正如前面所提到的，此目錄中的資料儲存在檔案系統中（而不是 SQL Server 中），因此，在考慮全文目錄的儲存位置時應該仔細選擇。除非指定其他位置，否則全文目錄將儲存在 FTDATA 目錄（位於 Microsoft SQL Server/MSSQL 儲存位置中）的子目錄中。以下是在非預設位置建立全文目錄的方法：
exec sp_fulltext_catalog 'Cat_Desc', 'create', 'f:/ft'

在本例中，全文目錄將建立為“f:/ft”的子目錄，如果您檢視檔案系統的該部分，將看到它有了自己的目錄。MSSearch 使用的全文目錄的命名規則是：
SQL+dbid+catalogID

目錄 ID 從 00005 開始，並且每新建一個目錄就遞增 1。
如果可能的話，最好在其所在的物理驅動器上建立全文目錄。如果生成全文索引的程序需要進行大量的 I/O 操作（具體而言，就是從 SQL Server 中讀取資料，然後向檔案系統寫入索引），則應避免使 I/O 子系統成為瓶頸。
那麼，全文目錄有多大呢？通常情況下，全文目錄的系統開銷比 SQL Server 中儲存的資料（對其進行全文索引）量高出大約 30%；但是，此規則取決於資料中唯一單詞（或主鍵）的分佈，以及被您視為是干擾詞的單詞的分佈。干擾詞（或終止詞）是指要排除在全文索引和查詢以外的詞語（因為它們不是您感興趣的搜尋詞，而且出現頻率很高，所以只會使索引變得很大，而不會有實際效果）。稍後，我們將介紹有關干擾詞選擇方面的注意事項，以及如何優化干擾詞以改善查詢效能。
如果您尚未執行此操作，請在每個要生成全文索引的表上建立一個唯一的單列非空索引。這個唯一索引用於將表中的每一行對映到 MSSearch 內部使用的一個唯一可壓縮主鍵。接下來，您需要讓 MSSearch 知道您要為表建立全文索引。對錶發出以下語句可將該表新增到所選的全文目錄中（在本例中，它是我們在前面建立的“Cat_Desc”）：
exec sp_fulltext_table 'Categories', 'create', 'Cat_Desc',
'PK_Categories'

下一步是向此全文索引新增列。您可以為每一列選擇一種語言，如果該列的型別為 IMAGE，則必須再指定一列，以指示 IMAGE 列的每一行中儲存的文件型別。
在列語言選擇方面，有一些重要但尚未成文的注意事項。這些注意事項與文字的標記方式以及 MSSearch 對文字的索引方式有關。被索引的文字是通過一個稱作單詞分隔符（用作單詞邊界標記）的元件提供的。在英文中，單詞分隔符通常是空格或某種形式的標點符號；而在其他語言中（例如德語），單詞或字元可以組合在一起；因此，所選的列語言應表示要儲存在該列的行中的語言。如果不確定，最好的方法通常是使用中性單詞分隔符（只使用空格和標點符號執行標記功能）。選擇列語言的另一個好處是“尋根溯源”。全文查詢中的尋根溯源是指在特定語言中搜索某一單詞的所有變化形式的過程。
選擇語言的另一個考慮因素與資料的表示方法有關。對於非 IMAGE 列資料來說，不需要執行特殊的過濾操作；而文字通常需要將單詞分隔元件按原樣傳遞。單詞分隔符主要用於處理書面文字。因此，如果文字中有任何型別的標記（例如 HTML），則在索引和搜尋過程中，語言精確性將不會很高。這種情況下，您有兩種選擇 - 首選方法是隻將文字資料儲存在 IMAGE 列中，並指明其文件型別，以便對其進行過濾。如果不選擇此方法，則可以考慮使用中性單詞分隔符，並且可能的話，在干擾詞列表中新增標記資料（例如 HTML 中的“br”）。在指定了中性語言的列中不能進行任何基於語言的尋根溯源，但有些環境可能會要求您選擇此方法。
在知道列選項後，通過發出以下語句在全文索引中新增一列或兩列：
exec sp_fulltext_column 'Categories', 'Description', 'add'

您可能注意到，此處未指定任何語言 - 這種情況下，將使用預設的全文語言。可以通過系統儲存過程“sp_configure”為伺服器設定預設全文語言。
將所有列新增到全文索引後，即可執行填充操作。填充方法之多實在是不勝列舉，此處不作詳細介紹。在本例中，只需對錶啟動完全填充，並等待它執行完畢：
exec sp_fulltext_table 'Categories', 'start_full'

您可能希望使用 FULLTEXTCATALOGPROPERTY 或 OBJECTPROPERTY 函式來監視填充狀態。要獲取目錄填充狀態，可以執行：
select FULLTEXTCATALOGPROPERTY('Cat_Desc', 'Populatestatus')

通常情況下，如果完全填充正在進行，則返回的結果是“1”。有關如何使用 FULLTEXTCATALOGPROPERTY 和 OBJECTPROPERTY 的詳細資訊，請參閱 SQL Server Books Online。
全文查詢
查詢全文索引與執行 SQL Server 中的標準關係型查詢略有不同。由於索引是在 SQL Server 外部進行儲存和管理的，因此全文查詢處理大部分由 MSSearch 完成（因此，那些一部分是關係型、一部分基於全文的查詢將被單獨處理），這樣做有時會損害效能。
從本質上說，執行全文查詢時，查詢詞傳遞給 MSSearch，後者遍歷其內部資料結構（索引），並向 SQL Server 返回主鍵和排位值。如果執行 CONTAINS 或 FREETEXT 查詢，則通常看不到主鍵或排位值，但如果執行 CONTAINSTABLE 或 FREETEXTTABLE 查詢，則將獲得這些值，然後這些值通常會與基表合併在一起。與基表合併主鍵的程序需要很高的系統開銷 - 稍後，我們將向您介紹一些巧妙的方法以儘量減少或完全避免這種合併。
如果您通過不斷思考，對全文查詢如何返回資料有了一個初步瞭解，就可以推測出 CONTAINS/FREETEXT 查詢僅執行 CONTAINSTABLE/FREETEXTTABLE 查詢並與基表進行合併。有了這樣的瞭解，您應該避免使用這些型別的查詢，除非不這樣做的開銷更高。在 Web 搜尋應用程式中，使用 CONTAINSTABLE 與 FREETEXTTABLE 比使用不帶 TABLE 的同類函式好得多。
到現在為止，您已經知道全文查詢是用來從 SQL Server 之外儲存的 MSSearch 索引中訪問資料的特殊方法，還知道如果盲目地與基表進行合併，就會遇到麻煩。應該瞭解的另外一個重要內容是 CONTAINS 樣式查詢與 FREETEXT 樣式查詢之間的本質差別。
CONTAINS 查詢用於對所查詢的所有詞語執行完全匹配查詢。無論您只查詢單個單詞，還是查詢以“orange”開頭的所有單詞，系統只返回包含所有搜尋詞的結果。因此，CONTAINS 查詢速度很快，因為它們通常返回很少的結果，並且不需要執行過多的附加處理。CONTAINS 查詢的缺點包括令人生厭的干擾詞過濾問題。經驗豐富的開發人員以及過去使用過全文搜尋的資料庫管理員，在試圖匹配只包含單個干擾詞的單詞或片語時，曾遇到過“您的查詢只包含干擾詞”這樣令人吃驚的錯誤。要避免收到此錯誤，方法之一是在執行全文查詢之前過濾出干擾詞。向包含干擾詞的 CONTAINS 查詢返回結果是不可能的，因為此類查詢只返回與整個查詢字串完全匹配的結果。由於干擾詞不是全文索引項，因此包含干擾詞的 CONTAINS 查詢不會返回任何行。
FREETEXT 查詢消除了 CONTAINS 查詢中偶爾出現的所有警告說明。當發出 FREETEXT 查詢時，實際上發出的是詞根查詢。因此，當您搜尋“root beer”時，“root”和“beer”包含其所有形式（尋根溯源與語言相關；所用的語言由生成索引時指定的全文列語言確定，並且在所有查詢的列中必須相同），並且系統將返回至少與這些詞語之一匹配的所有行。
FREETEXT 查詢的負面影響是它們通常比 CONTAINS 查詢耗用更多的 CPU - 因為要尋根溯源以及返回更多的結果，就需要包含更復雜的排位計算。不過，基於 FREETEXT 的查詢非常靈活，而且速度非常快，是基於 Web 的搜尋應用程式中通常使用的最佳選擇。
排位和優化
我經常遇到使用全文搜尋的使用者，他們問我排位編號是什麼意思，以及如何將排位編號轉換成某種使用者可以理解的值。對這個問題，回答可長可短，在這裡我將進行簡要回答。簡單而言，這些排位編號不如結果返回的順序那樣重要。也就是說，當您按照排位對結果進行排序時，總是首先返回關聯程度最高的結果。排位值本身常常變化 - 全文搜尋使用概率排位演算法，即返回的每個文件的關聯性受全文索引中的任何或所有其他文件的直接影響。
有些人認為，一種有助於增加某些行排位的技巧是在這些行的全文索引列中重複常用的搜尋關鍵字。儘管在某種程度上，這種方法可能會提高這些行因某些關鍵字而首先返回的機率，但在其他情況下，可能會適得其反 - 而且還存在使詞語查詢效能降低的風險。較好的解決方案是為搜尋應用程式實現“最佳選擇”系統（請參閱以下示例），這樣就可以確保首先返回某些文件。多次重複使用關鍵字會使這些特定關鍵字的全文索引擴大，並使得 MSSearch 在查詢正確行和計算排位時浪費時間。如果全文索引資料量很大，並嘗試使用了此方法，您可能會發現某些全文查詢很耗時。如果能夠實現更細緻（也可能更精確）的“最佳選擇”系統，您會發現它明顯改善了查詢效能。
多次重複資料的另一個問題與用於組合關係型查詢和全文查詢的常用技巧有關。許多使用全文搜尋的使用者都深受此問題的困擾，每當他們試圖將某種過濾器應用於全文查詢返回的結果時，便會遇到這樣的問題。正如前面所說的，全文查詢為每個匹配行返回一個主鍵和一個排位 - 要收集有關這些行的任何詳細資訊，必須與它的基表進行合併。由於從無限制的全文查詢中可能會返回任意數量的結果，因此合併可能需要大量系統開銷。人們發現避免合併的一個有效方法是隻在全文索引中新增要過濾的資料（如果可能）。換句話說，如果使用者要從報紙上所有文章的正文中搜索關鍵字“Ichiro”，並且只希望返回該報上體育專欄中的文章，則查詢語句通常如下所示：
-- [方法 1：]
-- 開銷最高：先全部選擇，然後再合併和過濾
SELECT ARTICLES_TBL.Author, ARTICLES_TBL.Body, ARTICLES_TBL.Dateline,
FT_TBL.[rank]
FROM FREETEXTTABLE(Articles, Body, 'Ichiro') AS FT_TBL
INNER JOIN Articles AS ARTICLES_TBL
ON FT_TBL.[key] = ARTICLES_TBL.ArticleID
WHERE ARTICLES_TBL.Category = 'Sports'

-- [方法 2：]
-- 可以使用，但會導致意外結果並變慢，或者會返回不準確的結果：
-- 執行全文過濾，並且只提取主鍵和排位
-- （處理在 Web 伺服器上完成）
SELECT [key], [rank]
FROM CONTAINSTABLE(Articles, *, 'FORMSOF(INFLECTIONAL('Ichiro')
AND "sports"')

這兩個查詢要麼不必要地佔用大量系統開銷，要麼存在返回錯誤結果的可能性（在第二個查詢中，“sports”很可能出現在所有型別的文章中）。這兩項技術還存在其他變體，但這是兩種非常簡單的模型。如果可行，我通常建議您對資料進行水平劃分。即，“類別”列的每個可能值都自成一列（或表），並且與該文章相關的可搜尋關鍵字僅儲存在此列中。採用此方法，而不是使用一個“正文”列和一個“類別”列，可以去掉“類別”列，而使用儲存可搜尋關鍵字的“Body_<category>”列。如以下示例所示：
-- 如果您可以調整架構，這非常有效 ‐ 每個類別
-- 都成為自己的列（或表格），並且需要命中的
-- 全文索引也較少。這明顯需要作一些解釋……
SELECT [key], [rank]
FROM FREETEXTTABLE(Articles, Body_Sports, 'Ichiro')

對於包含大量資料，且這些資料可適應此架構（或許是主架構）更改的系統，其效能會得到顯著的提高。但在何時應用多個過濾器或不應用過濾器方面卻有著明顯的限制。當然，還有其他的方法可以解決這些問題。通過以上示例，您會了解一種將某些搜尋條件抽象到架構的方法 - 實際上是“欺騙”優化程式（更確切的說是“成為”優化程式），因為在 SQL Server 本身的全文查詢中當前不存在本地優化。
其他效能技巧
人們在聊天時常常問我的另一個問題是如何才能分頁顯示全文查詢結果。換句話說，如果我要發出“root beer”查詢，一次在某一 Web 頁上顯示 40 個結果，並且只希望返回該頁面上的 40 個結果（例如，如果我在第三頁，我希望僅返回第 81 至第 120 條結果）。
對於分頁顯示結果，我曾見過多種方法，但沒有一種方法能夠做到百分之百有效。我所推薦的方法可以最大程度地減少全文查詢執行的次數（實際上，對於要分頁顯示的每個結果集只需執行一次），並將 Web 伺服器用作一個簡單的快取。從更高的層面來講，您只需在全文查詢中檢索一個完整的主鍵和排位值行集合（如果需要，可以在架構中使用最佳選擇並提取常用過濾器），並將其儲存在 Web 伺服器的記憶體中（這取決於您的應用程式和負載，想象將 <32 位元組的典型主鍵大小與 <4 位元組的排位大小相加 [等於 <36 位元組]，然後乘以通常返回的結果集 <1000 行，最後等於 <35K。假定一個在任何給定時間返回 <1000 個活動查詢結果集中的一個活動快取集，您將發現此活動快取集在 Web 伺服器上佔用的記憶體少於 35MB - 這還可以接受）。
為了分頁顯示結果，該程序只遍歷 Web 伺服器的記憶體中儲存的陣列，並對 SQL Server 發出 SELECT 以便只顯示需要顯示的行和列。這又回到了全文查詢僅返回主鍵和排位的概念中 - SELECT（甚至許多這樣的查詢語句）比全文查詢的速度快許多倍。使用 SELECT 而不是與基表合併多個行，並結合多個其他策略，您可以保留 SQL Server 計算機上更多的 CPU 週期，並且更有效、更划算地利用 Web 領域。
另一種可以替代 Web 伺服器端快取的方法是在 SQL Server 自身中快取結果集，並定義多種用於瀏覽這些結果的方法。雖然本文著重說明 Web 伺服器 (ASP) 級別的應用程式設計，但 SQL Server 的可程式設計功能還為生成高效能的 Web 搜尋應用程式提供了強大的框架。
小結
Microsoft SQL Server 2000 的全文搜尋功能為索引和查詢資料庫中儲存的非結構化文字資料提供了可靠、快速而靈活的方法。如果要廣泛地將這種快速、準確的搜尋功能應用於各種應用程式，那麼很有必要充分利用其速度和精確性，來實現全文搜尋解決方案。通過分佈計算負載並通過某些巧妙的方式對資料進行組織，可以省下錢來購買其他硬體和軟體，以擺脫因不必要的緩慢查詢帶來的困擾。在開發優秀的搜尋應用程式時，通常要考慮到許多因素和注意事項，希望本文提供的資訊和示例對您學習使用 SQL Server 2000 生成出色的 Web 搜尋應用程式會有所幫助。
附錄 A：實現全文搜尋功能的最佳選擇
改進全文查詢效能和有效性的一種可行方法是實現“最佳選擇”系統。此係統是一種很簡單的方法，可確保某些與特定查詢表示式匹配的行先於其他行返回。最佳選擇沒有複雜的預程式設計邏輯（例如，SharePoint Portal Server 就包含這樣的邏輯），因此，通常是首選辦法。
在本示例中挑選出最佳選擇，並將唯一的主鍵和一些關鍵字儲存在單獨的表中。FREETEXTTABLE 查詢對（非常小的）最佳選擇表執行，並且從該查詢中返回的任何結果都與對基表的 FREETEXTTABLE 查詢結果一同返回。在給定這些搜尋條件下，最先返回的將是所有“最佳選擇”行，隨後是被 MSSearch 視為關聯程度最高的行（以遞減順序返回）。
下面是一個非常簡單的用於建立最佳選擇系統的示例指令碼。
use myDb

create table documentTable(ftkey int not null, document ntext)
create unique index DTftkey_idx on documentTable(ftKey)

/*
在此插入文件
（要生成全文索引的所有文件）
*/

-- 為所有文件表建立全文目錄和索引
exec sp_fulltext_catalog 'documents_cat', 'create', 'f:/ftCats'
exec sp_fulltext_table 'documentTable', 'create', 'documents_cat',
'DTftkey_idx'
exec sp_fulltext_column 'documentTable', 'document', 'add'
exec sp_fulltext_table 'documentTable', 'start_change_tracking'
exec sp_fulltext_table 'documentTable', 'start_background_updateindex'

/*
現在建立最佳選擇表和索引
（新增應該始終最先返回的文件）
*/
create table bestBets(ftKey int not null, keywords ntext)
create unique index BBftkey_idx on bestBets(ftKey)

/*
在此插入最佳選擇
*/

-- 為最佳選擇表建立全文目錄和索引
exec sp_fulltext_catalog 'bestBets_cat', 'create', 'f:/ftCats'
exec sp_fulltext_table 'bestBets', 'create', 'bestBets_cat', 'BBftkey_idx'
exec sp_fulltext_column 'bestBets', 'keywords', 'add'
exec sp_fulltext_table 'bestBets', 'start_change_tracking'
exec sp_fulltext_table 'bestBets', 'start_background_updateindex'

首先建立了一個通用的“所有文件”表，用於儲存所有要全文索引的文件。通常情況下，文件表中包含其他列，但在本文中，只包含兩列 - 主鍵索引和文件本身。全文目錄和索引是為文件表而建立的。
接著建立了“最佳選擇”表，用於儲存所有全文查詢中首先返回的特殊文件。此表只需具有全文主鍵列和文件本身（對將某些文件作為查詢目標的策略進行優化，包括在該文件本身不包含的文件中新增其他關鍵字）。全文目錄和索引是為最佳選擇表而建立的。
最佳選擇表和文件表可以共享文件（最佳選擇文件還儲存在常規文件表中，它們共享同一個主鍵值），也可以相互排斥（最佳選擇文件只儲存在最佳選擇表中）。為便於檢索，使最佳選擇表與文件表互斥更為容易 - 這樣做就無需從最佳選擇和返回的普通搜尋結果行集合中刪除共享操作。另一方面，使用此方法維護文件可能很難實現，因為在此方法中，要在查詢中新增邏輯來刪除返回的行集合之間的共享文件。
如果給定上面的表，則可以建立兩個儲存過程，以便對最佳選擇表和文件表進行搜尋。可使用 Web 伺服器級別的邏輯或其他儲存過程來快取和顯示所需結果（與最佳選擇一起使用時，請參閱下面有關快取、顯示和分頁的一個完整、有效的示例）。
首先，建立一個用於檢索最佳選擇行（如果有）的儲存過程：
create procedure BBSearch @searchTerm varchar(1024) as

select [key], [rank] from freetexttable(bestBets, keywords, @searchTerm) order by [rank] desc

確保已對傳入搜尋字串進行清理，以避免在伺服器上隨意執行 T-SQL，並確保用單引號將該字串括起。這種情況下，使用 FREETEXTTABLE 比使用 CONTAINSTABLE 要好，因為 FREETEXTTABLE 將採用尋根溯源功能，並找到與任何搜尋詞相匹配的最佳選擇。
接下來，第二個儲存過程檢索與常規搜尋標準匹配的文件（如果有）：
create procedure FTSearch @searchTerm varchar(1024) as

select [key], [rank] from freetexttable(documentTable, keywords, @searchTerm) order by [rank] desc

此外，請確保已清理傳入搜尋字串，並用單引號將該字串括起。
執行這些儲存過程時，應該在兩個儲存過程中傳入相同的搜尋詞，首先執行最佳選擇搜尋，然後執行普通全文搜尋。下一節更全面地介紹了在構建 Web 搜尋應用程式時，如何與其他全文搜尋技術一起使用最佳選擇。
附錄 B：使用最佳選擇、結果分頁和有效全文查詢邏輯的示例應用程式
在本例中，我們實現了一個幾乎利用了本文介紹的所有優化方案的 Web 搜尋應用程式。我們對聯機零售商目錄使用簡單的搜尋引擎方案，並假定在通訊量很高的情況下，所有使用者都期待在很短的響應時間內獲得結果。本示例使用了前一節中的最佳選擇表和儲存過程。
此應用程式只是一些可用於實現最佳全文搜尋效能的高階策略的簡單示例。本示例使用了 ASP，也可使用 ISAPI、ASP.NET 或其他平臺來實現具有各自優缺點的類似解決方案。會話物件並不一定對所有應用程式都適用，如果使用不當，可能帶來一定程度的危險。在本例中，我們使用會話物件來實現快速有效的快取機制 - 當然還有許多其他方法可以在不同程度上實現該功能。

下面是 ASP 頁的通用程式碼：
<% @Language = "VBScript" %>
<% Response.buffer = true %>
<html>
   <head>
      <title>FT 測試</title></head>
   <body>
<pre>
----------------- 開始測試 ------------------

Dim firstRow   ' 分頁顯示行時的第一行
Dim lastRow      ' 分頁顯示行時的最後一行
Dim pageSize   ' 頁面大小（每次的行數）
Dim cn      ' 連線物件
Dim rs      ' FT 主鍵/排位返回的結果集（重複使用）
Dim useCache   ' 使用快取或命中 FT（0：不使用；1：使用）
Dim alldata      ' 要快取的結果行集合
Dim bbdata      ' 要快取的最佳選擇行集合
Dim connectionString   ' SQL 連線字串

' 確定是否要從快取獲取資料
' 預設為否，否則接受傳入的資料
if (request.Form("useCache") <> "") then
   useCache = request.Form("useCache")
elseif (request.QueryString("useCache") <> "") then
   useCache = request.QueryString("useCache")
else
   useCache = 0
end if

' 設定常量
pageSize = 24
firstRow = 0
lastRow = 23
connectionString = <在此輸入您的連線字串>

'----------------------------------------------------------------'
' 顯示與最佳選擇/搜尋詞匹配的簡單主鍵/排位 '
'----------------------------------------------------------------'
Private Sub SearchNPage()

Dim p ' 迴圈通過行時的計數器
Dim numRows ' 緩衝/結果集中的總行數

if (useCache <> "1") then ' 獲取最佳選擇/結果並將其快取

      Dim queryArg   ' 傳入的查詢詞
      if (request.Form("searchTerm") <> "") then
         queryArg = request.Form("searchTerm")
      elseif (request.QueryString("searchTerm") <> "") then
         queryArg = request.QueryString("searchTerm")
      else
         response.Write("未提供搜尋詞" & VbCrLF)
         exit sub
      end if

      ' 理想情況下，應該在此清理查詢詞...
      ' 新增自定義的清理邏輯，以防止
      ' 隨意執行 SQL

' 呼叫 CleanString(queryArg)

      ' 建立與 SQL 的連線
      Set cn = Server.CreateObject("ADODB.Connection")
      cn.Open connectionString

' 從傳入的乾淨字串中獲取最佳選擇匹配項
set rs = cn.Execute("exec BBSearch '" & queryArg & "'")

      ' 如果有最佳選擇，則獲取最佳選擇
      if not(rs.EOF) then
         bbData = rs.GetRows
      end if

' 現在從傳入的乾淨字串中獲取普通匹配項
set rs = cn.Execute("exec FTSearch '" & queryArg & "'")

      ' 如果未返回任何結果，則結束
      if (rs.EOF and IsEmpty(bbdata)) then
         response.Write("沒有匹配的行" & VbCrLF)
         call ConnClose
         exit sub
      end if

      ' 否則，獲取行
      if not(rs.EOF) then
         alldata = rs.GetRows
         Session("results") = alldata
      end if

call ConnClose

else ' 從快取載入 (usecache=1)

alldata = Session("results")

      ' 在此獲取要使用的行範圍
      if (request.Form("firstRow") <> "") then
         firstRow = request.Form("firstRow")
         lastRow = firstRow+pageSize
      elseif (request.QueryString("firstRow") <> "") then
         firstRow = request.QueryString("firstRow")
         lastRow = firstRow+pageSize
      end if

end if ' useCache<>TRUE

   ' 對於本應用程式，只是打印出所有最佳選擇
      ' （可能比頁面大小大），然後分頁顯示普通結果
      ' 此處假設：在使用快取時，如果沒有新的最佳選擇，
' 則使用以前顯示的最佳選擇
   if not(IsEmpty(bbdata)) then
      response.Write("最佳選擇：" & VbCrLf)
      for p = 0 to ubound(bbdata, 2)
response.Write(bbData(0,p) & " " & bbData(1,p) & VbCrLf)
      next
      response.Write(VbCrLf)
   end if

   ' 返回搜尋結果（可能只有最佳選擇）
   if not(IsEmpty(alldata)) then
      if uBound(alldata, 2) < lastRow then
         lastRow = uBound(allData, 2)
      end if

response.Write("搜尋結果：" & VbCrLf)

      for p = firstRow to lastRow
response.Write(allData(0,p) & " " & allData(1,p) & VbCrLf)
      next
   end if ' not(IsEmpty(alldata))

End Sub

'----------------------------------------------------------------'
' 關閉並清除連線物件                                             '
'----------------------------------------------------------------'
Private Sub ConnClose
   rs.Close
   Set rs = Nothing
   cn.Close
   Set cn = Nothing
End Sub

call SearchNPage

---------------- 測試結束 ----------------

<form action="<本頁>" method="post">
<input type=submit value="next <%=pageSize%> rows" NAME="Submit1">
<input type=hidden name="useCache" value="1">
<input type=hidden name="firstRow" value=<%=lastrow+1%>>
</form>

</pre>
</body>
</html>

一個簡單的 HTML 窗體頁面即可像下面一樣利用上面的指令碼：

<html>
<head><title>輸入搜尋詞</title>
</head>

<body>

<form action="<搜尋 ASP 頁面>" method="post">
搜尋詞：<input name="searchTerm">
<p>
<input type="submit" value="Search">
</form>

</body>
</html>

正如以上兩個程式碼示例所示，建立可執行有效全文查詢（用最佳選擇完成）並快取和分頁顯示結果的 Web 應用程式，並不需要花費太多的工夫。只需使用最低的系統開銷，即可新增用於提供其他資料、增強最佳選擇的外觀以及在搜尋結果中導航的邏輯（此外，強烈建議您實現其他用於錯誤處理、安全設定和清理傳入資料的嚴密邏輯）。
通過上面的高階建議和示例，使用 SQL Server 2000 全文搜尋設計和實現快速可縮放的 Web 搜尋應用程式就是輕而易舉的事情了。

附錄 C：資源
Full-Text Search Deployment（英文）
http://support.microsoft.com/default.aspx?scid=/support/sql/content/2000papers/fts_white%20paper.asp
是那些初次接觸全文搜尋的使用者的最佳參考。介紹了填充方法及硬體和軟體需求，併為使用 SQL Server 2000 全文搜尋提供了提示、技巧和其他文件。
全文搜尋公共新聞組 (microsoft.public.sqlserver.fulltext)
查詢有關全文搜尋問題的答案以及有用提示和技巧的理想場所。全文搜尋新聞組是 SQL Server 開發小組和博學的 Microsoft MVP 成員經常光顧的場所。

sql全文索引的工作原理,及其優化

sql全文索引的工作原理,及其優化

Hadoop 之 MapReduce 的工作原理及其倒排索引的建立

索引的工作原理及其優缺點

spring學習9 Spring工作原理及其作用

JVM GC Collector工作原理及優化

PGP工作原理及其安全體制

金萬城平臺SQL Server索引的原理深入解析扣892118

瀏覽器核心、引擎、頁面呈現原理及其優化

瀏覽器內核、引擎、頁面呈現原理及其優化

DDNS 的工作原理及其在 Linux 上的實現

Nginx工作原理和優化漏洞

資料庫索引底層原理及優化

MySQL:索引工作原理

redis的底層原理及其優化策略

SQL中索引的原理

css 原理及其優化

java 關於HashMap的工作原理和優化

DNS工作原理及其過程

Spring工作原理及其作用

Nginx 工作原理和優化、漏洞

sql全文索引的工作原理,及其優化

相關推薦