【搜尋引擎】Whoosh——Schema介紹

阿新 • • 發佈：2019-02-20

關於Schema和Field

Schema指明瞭需要索引的文件的域（field）。

每個文件都可以有多個field，例如標題，正文，url，日期等。

有些field可以被索引，有些field可以和文件一起儲存，這樣field的值可以在搜尋結果中展示出來，有些索引即可以被索引也可以被儲存。

schema是文件中所有field的集合，每一個文件可能只擁有schema中一個field子集。

Field Types

whoosh.fields.TEXT

適用於正文文字，對文字進行索引（可儲存），同時儲存項的位置以提供搜尋功能。

預設使用StandardAnalyzer，可以通過指明analyzer關鍵字來設定其他analyzer。

TEXT預設對每一個索引項的位置資訊進行儲存，以便進行pharse可以通過設定TEXT(phrase=False)來關閉。

TEXT預設是不儲存的，可以通過TEXT(stored=True)來設定。

whoosh.fields.KEYWORD

這個型別是為以空格或者逗號為分隔符的關鍵詞建立的。可以被索引也可以被搜尋，儲存。如果要儲存空格，則不支援短語搜尋。

使用stored=True來儲存域中的value。

關鍵詞被設定為預設以空格為分隔符，可以通過設定commas=True來使用逗號分隔。

如果要使用keywords域來進行搜尋，設定scorable為True。

whoosh.fields.ID

ID型別對field的整個值做索引，即將field的值作為一個整體不可拆分，這個型別不儲存頻次資訊。

這個型別適合儲存url或是path，date,category,類似的其值必須被看做一個整體，並且每一個文件僅含有一個值的域。

ID field預設是不儲存的。

whoosh.fields.STORED

STORED域僅僅是和文件一起儲存，不會被索引和搜尋，當你想儲存一些資訊隨搜尋結果一起展示時，可以將這些資訊設定為STORED。

whoosh.fields.NUMERIC

這個型別儲存整型，長整型或是浮點型資料。

whoosh.fields.DATETIME

儲存日期型資料

whoosh.fields.BOOLEAN

儲存布林型資料，（yes,no;true,false;1,0;t,f）

whoosh.fields.NGRAM

TBD

構建Schema

使用如下語句來構建一個Schema,同時指明文件中的field以及field的資料型別：

from whoosh.fields import Schema, TEXT, KEYWORD, ID, STORED
from whoosh.analysis import StemmingAnalyzer

schema = Schema(from_addr=ID(stored=True),
                to_addr=ID(stored=True),
                subject=TEXT(stored=True),
                body=TEXT(analyzer=StemmingAnalyzer()),
                tags=KEYWORD)

使用create_in()或者create_index()來建立索引：

ix = create_in("index", schema)

可以使用writer物件的add_field()和remove_field()方法來修改schema：

writer = ix.writer()
writer.add_field("fieldname", fields.TEXT(stored=True))
writer.remove_field("content")
writer.commit()

當刪除schema中的field時，index檔案在得到優化前並不會因此而變小，以下是優化方法。

writer = ix.writer()
writer.add_field("uuid", fields.ID(stored=True))
writer.remove_field("path")
writer.commit(optimize=True)

切記在優化前不要將與被刪除field同名的field新增到index中。

動態Field

我們可以使用萬用字元來聯絡符合條件的field。例如：

schema = fields.Schema(...)
# Any name ending in "_d" will be treated as a stored
# DATETIME field
schema.add("*_d", fields.DATETIME(stored=True), glob=True)

所有名字以‘_d’為結尾的field會被設定為DATETIME。

設定諸如此類的動態field時需要設定glob為True。

刪除動態field：

writer = ix.writer()
writer.remove_field("*_d")
writer.commit()

使用示例：

schema = fields.Schema(path=fields.ID)
schema.add("*_id", fields.ID, glob=True)

ix = index.create_in("myindex", schema)

w = ix.writer()
w.add_document(path=u"/a", test_id=u"alfa")
w.add_document(path=u"/b", class_id=u"MyClass")
# ...
w.commit()

qp = qparser.QueryParser("path", schema=schema)
q = qp.parse(u"test_id:alfa")
with ix.searcher() as s:
    results = s.search(q)

以上程式碼將所有名稱以'_id'為結尾的field都設定為ID型別，可以減少一定工作量，做到批量操作。

高階schema設定

Field boosts

為域設定權重，以區分不同Field的重要程度。例如將在title中發現索引項的得分設定為兩倍於其他Field中的得分。

schema = Schema(title=TEXT(field_boost=2.0), body=TEXT)

【搜尋引擎】Whoosh——Schema介紹

關於Schema和Field Schema指明瞭需要索引的文件的域（field）。每個文件都可以有多個field，例如標題，正文，url，日期等。有些field可以被索引，有些field可以和文件一起儲存，這樣field的值可以在搜尋結果中展示出來，有些索引即可以被

【搜尋引擎】Whoosh 快速上手教程

Whoosh Whoosh是一個索引文字和搜尋文字的類庫，可以為你提供搜尋文字的服務。構建Schema 使用Whoosh首先要構造一個index物件，並在構造的同時為index指定schema，schema指明瞭index涉及到的field。 field指構造索引的

【搜尋引擎】用whoosh+無監督聚類搭建一套智慧搜尋引擎

因本介面自定義功能較多，且底層演算法自己搭建，故不再使用其他三方庫，只用whoosh其他演算法自己寫。 # -*- coding: utf-8 -*- from whoosh.fields import Schema,TEXT,ID from whoosh.index i

【轉載】WEBRTC基本介紹

webrtc 數據流應用帶寬工作 ogl 回聲 real 明顯 “WebRTC，名稱源自網頁實時通信（Web Real-Time Communication）的縮寫，是一個支持網頁瀏覽器進行實時語音對話或視頻對話的技術，是谷歌2010年以6820萬美元收購

openstack項目【day23】：KVM介紹

進制 sed 與他運行之前 entos strong img 類型閱讀目錄什麽是kvm 為何要用kvm kvm的功能常見虛擬化模式 KVM架構 KVM工具集合一什麽是kvm KVM 全稱 Kernel-Based Virtual Machine。也就是說

【1】地圖單位介紹

長度分辨率世界地球對角線意義常用長度單位計算機 1.常用單位 1)長度單位 1km（公裏）=1000m（米，公尺） 1m（米）=1000mm（毫米），1m=100cm（厘米） 1m=10dm（分米） 1m=3尺， 2)面積單位 1公頃=15畝，1公頃=

【轉】RAID技術介紹和總結

允許 pos distrib 數據讀取 body web服務器 data- 也有丟失轉自http://blog.jobbole.com/83808/ 簡介 RAID是一個我們經常能見到的名詞。但卻因為很少能在實際環境中體驗，所以很難對其原理能有很清楚的認識和掌握。本文

【轉】C# list介紹和用法

php 檢索排序 c# reac ont 面向對象類型大型一、LIST概述所屬命名空間：System.Collections.Generic public class List<T> : IList<T>, ICollection

【html】01_html的介紹

min 標記 gem 瀏覽器 -i bin 組織難了 markup 【HTML專修介紹】定義： HTML(HypertextMarkup Language)，超文本標記語言如何理解：（意思就是超越了文本，還能兼容圖片，視頻，聲音字節）它的主要用處是什麽？就是用來

函式和常用模組【day04】：函式介紹（一）

本節內容 1、函式介紹 2、函式定義 3、為什麼要使用函式一、介紹　　在我們以往的學習程式設計的過程當中，碰到的最多的兩張程式設計方式或者說程式設計方法：面向過程和麵向物件。其實不管是哪一種，其實都是程式設計的方法論而已。但是現在有一種更古老的程式設計方式：函數語言程式設計，以它的不儲存的狀態，

【影象】資料格式介紹(yuv420sp、yuv420sp、yv12,nv12等)

YUV定義：分為三個分量，“Y”表示明亮度（Luminance或Luma），也就是灰度值；而“U”和“V” 表示的則是色度（Chrominance或Chroma），作用是描述影像色彩及飽和度，用於指定畫素的顏色。 YUV格式：有兩大類：planar和packe

網路程式設計基礎【day10】：作業系統介紹

一、為什麼要有作業系統現代的計算機系統主要是由一個或者多個處理器，主存，硬碟，鍵盤，滑鼠，顯示器，印表機，網路介面及其他輸入輸出裝置組成。一般而言，現代計算機系統是一個複雜的系統。其一：如果每位應用程式設計師都必須掌握該系統所有的細節，那就不可能再編寫程式碼了（嚴重影響了程式設計師的開發效率：全部

【composer】安裝和介紹

windows 系統要求：PHP5.3.2+ 1、進入cpmposer官網：https://getcomposer.org/download ，往下拉，找Manual Download，下載了最新composer版本。 2、下載完後解壓，把composer.phar貼上到你的php的檔案目錄下面。是有

【JAVA】Java Web 介紹

Web 概念：表示Internet主機上供外界訪問的資源。 Internet上供外界訪問的Web資源分為：靜態web資源(Static Web)：指web頁面中供人們瀏覽的資料始終是不變。靜態技術有：HTML；靜態資源有：** .

Python【1】：python介紹,歷史,直譯器，語言分析

python介紹 Python（英國發音：/ˈpaɪθən/ 美國發音：/ˈpaɪθɑːn/）, 是一種面向物件、解釋型計算機程式設計語言，由Guido van Rossum於1989年發明，第一個公開發行版發行於1991年。Python是純粹的自由軟體，原始碼和直譯器CPython遵循 GPL(GNU

Python【1】：python介紹,歷史,解釋器，語言分析

國內系統運維更新進行清晰 naconda linu 內存 pen python介紹 Python（英國發音：/?pa?θ?n/ 美國發音：/?pa?θɑ?n/）, 是一種面向對象、解釋型計算機程序設計語言，由Guido van Rossum於1989年發明，第一個公

【筆記】Markdown用法介紹

Markdown用法介紹歡迎使用Markdown編輯器新的改變功能快捷鍵合理的建立標題，有助於目錄的生成如何改變文字的樣式插入連結與圖片如何插入一段漂亮的程式碼片生成一個適合你的列表

【轉載】Hadoop產品介紹

http://blog.fens.me/hadoop-family-roadmap/ Apache Hadoop: 是Apache開源組織的一個分散式計算開源框架，提供了一個分散式檔案系統子專案(HDFS)和支援MapReduce分散式計算的軟體架構。 Apac

【譯】2分鐘介紹Rx

諸位應該已經讀過我的前端時間寫過的入門教程了。太長不看？好吧。Rx沒那麼難，你可以自己實現一遍。這裡有一個數組： [14, 9, 5, 2, 10, 13, 4] 假設這是一個immutable(不可變)的陣列，你需要去除所有的奇數，你會怎麼做？這裡有一個流行的辦法： [14, 9, 5, 2, 10,

【Docker】 Swarm簡單介紹

Swarm是Docker官方提供的一款叢集管理工具，其主要作用是把若干臺Docker主機抽象為一個整體，並且通過一個入口統一管理這些Docker主機上的各種Docker資源。Swarm和Kubernetes比較類似，但是更加輕，具有的功能也較kubernetes更少一些。

【搜尋引擎】Whoosh——Schema介紹

關於Schema和Field

Field Types

構建Schema

動態Field

高階schema設定

Field boosts

相關推薦