【搜尋引擎】Whoosh 快速上手教程

阿新 • • 發佈：2019-01-21

Whoosh

Whoosh是一個索引文字和搜尋文字的類庫，可以為你提供搜尋文字的服務。

構建Schema

使用Whoosh首先要構造一個index物件，並在構造的同時為index指定schema，schema指明瞭index涉及到的field。

field指構造索引的文件的某一部分內容，例如文件的標題或者正文。例如以下schema擁有title和content兩個field。

from whoosh.fields import Schema, TEXT
schema = Schema(title=TEXT, content=TEXT)

Index

構建Index

構建schema後可以使用creat_in來構造index並存儲：

import os.path
from whoosh.index import create_in

if not os.path.exists("index"):
    os.mkdir("index")
ix = create_in("index", schema)

讀取Index

儲存index後，可以使用open_dir來讀取index：

from whoosh.index import open_dir
ix = open_dir("index")

IndexWriter

目前我們得到了Index物件，可以往其中新增需要索引的文件，Index物件的writer()方法返回IndexWriter物件提供向Index中新增文件的方法，使用IndexWriter物件的add_document()方法同時指明各個field的值來將文件新增到Index中去。

writer = ix.writer()
writer.add_document(title=u"My document", content=u"This is my document!",
                    path=u"/a", tags=u"first short", icon=u"/icons/star.png")
writer.add_document(title=u"Second try", content=u"This is the second example.",
                    path=u"/b", tags=u"second short", icon=u"/icons/sheep.png")
writer.add_document(title=u"Third time's the charm", content=u"Examples are many.",
                    path=u"/c", tags=u"short", icon=u"/icons/book.png")
writer.commit()

writer.commit()方法用來儲存提交的文件。

Searcher

使用Searcher物件來搜尋索引。

searcher = ix.searcher()

可以使用with語句來使用Searcher，這樣當呼叫結束後系統可以自動為你釋放Searcher佔用的資源。

with ix.searcher() as searcher:
    ...

Searcher的search()方法接受一個Query物件，這時可以直接使用Query物件或是使用query parser來parse查詢字串。

直接構建Query物件：

from whoosh.query import *
myquery = And([Term("content", u"apple"), Term("content", "bear")])

使用parser來構造query物件：

from whoosh.qparser import QueryParser
parser = QueryParser("content", ix.schema)
myquery = parser.parse(querystring)

例如：

>>> print(parser.parse(u"render shade animate"))
And([Term("content", "render"), Term("content", "shade"), Term("content", "animate")])

>>> print(parser.parse(u"render OR (title:shade keyword:animate)"))
Or([Term("content", "render"), And([Term("title", "shade"), Term("keyword", "animate")])])

>>> print(parser.parse(u"rend*"))
Prefix("content", "rend")

使用search()方法查詢結果：

>>> results = searcher.search(myquery)
>>> print(len(results))
1
>>> print(results[0])
{"title": "Second try", "path": "/b", "icon": "/icons/sheep.png"}

【搜尋引擎】Whoosh 快速上手教程

Whoosh Whoosh是一個索引文字和搜尋文字的類庫，可以為你提供搜尋文字的服務。構建Schema 使用Whoosh首先要構造一個index物件，並在構造的同時為index指定schema，schema指明瞭index涉及到的field。 field指構造索引的

【gitlab】gitlab快速部署教程

gitlab快速部署教程部署環境 Ubuntu 16.04（親測可用）開始部署安裝依賴 sudo apt-get install curl openssh-server ca-certificates postfix 執行完成後，出現郵件配置，選擇Internet那一項（不帶Sma

【Android】Android快速入門教程（五——2）——logcat控制檯

文章目錄一、logcat是什麼？二、logcat有什麼用？三、我該怎麼列印自己要的日誌內容一、logcat是什麼？一般情況可以在下圖所示位置可以找到logcat控制檯，如果找不到的，可以在Android studi

【搜尋引擎】Whoosh——Schema介紹

關於Schema和Field Schema指明瞭需要索引的文件的域（field）。每個文件都可以有多個field，例如標題，正文，url，日期等。有些field可以被索引，有些field可以和文件一起儲存，這樣field的值可以在搜尋結果中展示出來，有些索引即可以被

【量化小講堂- Python、pandas技巧系列】如何快速上手使用Python進行金融數據分析

exc 規律專業了解全能快速想法 pac 之前如何快速上手使用Python進行金融數據分析引言:本系列帖子“量化小講堂”，通過實際案例教初學者使用python、pandas進行金融數據處理，希望能對大家有幫助。【必讀文章】:《10年400倍策略分享-附視頻逐行講

【搜尋引擎】用whoosh+無監督聚類搭建一套智慧搜尋引擎

因本介面自定義功能較多，且底層演算法自己搭建，故不再使用其他三方庫，只用whoosh其他演算法自己寫。 # -*- coding: utf-8 -*- from whoosh.fields import Schema,TEXT,ID from whoosh.index i

【bzoj2179】FFT快速傅立葉 FFT

cnblogs fin fft 然而 cst urn char ont 一個題目描述給出兩個n位10進制整數x和y，你需要計算x*y。輸入第一行一個正整數n。第二行描述一個位數為n的正整數x。第三行描述一個位數為n的正整數y。輸出輸出一行，即x*y

P3390 【模板】矩陣快速冪

說明快速冪給定元素答案利用 class 題目乘法題目背景矩陣快速冪題目描述給定n*n的矩陣A，求A^k 輸入輸出格式輸入格式：第一行，n,k 第2至n+1行，每行n個數，第i+1行第j個數表示矩陣第i行第j列的元素輸出格式：輸出A^

洛谷 P3390 【模板】矩陣快速冪

算法 ons int void printf cst getchar show 輸出格式題目背景矩陣快速冪題目描述給定n*n的矩陣A，求A^k 輸入輸出格式輸入格式：第一行，n,k 第2至n+1行，每行n個數，第i+1行第j個數表示矩陣第i行

【模板】矩陣快速冪

oid -c algorithm adg col emc print cstring -o 題目背景矩陣快速冪題目描述給定n*n的矩陣A，求A^k 輸入輸出格式輸入格式：第一行，n,k 第2至n+1行，每行n個數，第i+1行第j個數表示矩陣第i行第j列的元素

luogu3390 【模板】矩陣快速冪

tdi ret operator turn clu names his == 等於 #include <iostream> #include <cstdio> using namespace std; typedef long long ll; ll

vultr 購買 vps 快速上手教程

span server -i 右上角 neu 價格直接 ges -c 註冊登錄vultr官網地址進入vultr官網,右上角有登錄和註冊,點擊註冊直接輸入想要註冊的賬號密碼就可以購買因為是要先支付,進去後就是支付頁面,支持支付寶支付Alipay 阿裏支付，也就是支付寶。支付

【轉】如何快速識別應用MOS管，幾張圖片就搞定了

alt 通過 lan dia icm dji icp jpg http 三極管是流控型器件，MOS管是壓控型器件，兩者存在相似之處。三極管機可能經常用，但MOS管你用的可能較少。對於MOS管先拋出幾個問題：如何區分P-MOS和N-MOS；如何區分MOS的G、D、

【翻譯】Apache Shiro10分鐘教程

做什麽網頁 cnblogs 讓我技術參考手冊 user com 分鐘本文為翻譯文，原文地址：http://shiro.apache.org/10-minute-tutorial.html 介紹歡迎來到Apache Shiro的10分鐘教程！通過這個教程，你會完全

【前端】CentOS 7 系列教程之五：安裝最新版 nginx 並設置 nginx 代理轉發 node 服務

con config get http ati sha cal 安裝 pre 轉載請註明出處：http://www.cnblogs.com/shamoyuu/p/linux_5.html 進入/usr/local目錄 cd /usr/local 下載最新

【Vue】Vue快速入門

class style 變化方法名 ack count 回調 element 參數 Vue.js介紹 Vue.js的作者為Evan You（尤雨溪），曾任職於Google Creative Lab。 Vue文檔：https://cn.vuejs.org 　

【序】django快速開發

django 感想 linux 我目前處於雲計算運維崗。在每天需要進行諸多繁瑣的巡檢，為此組內早在14年開始就打造了一個自動化運維平臺，日常中絕大多數任務都得以簡化。我入職公司差不多有半年左右了，也被派發到組內系統建設這個項目。由於本人之前涉獵偏重於系統技術，開發方面底蘊較薄，深感

python快速上手教程

n) 數字類型 clas 取反 col 整數部分基本數據類型 -s python版本 python目前的版本分為2.7和3.5,兩種版本的代碼目前無法兼容，查看python版本號： python --version 基本數據類型數字類型整型和浮點型

模板【洛谷P3390】【模板】矩陣快速冪

i++ pac get lld getchar () lin line its P3390 【模板】矩陣快速冪題目描述給定n*n的矩陣A，求A^k 矩陣A的大小為n×m，B的大小為n×k，設C=A×B 則C_{i,j}=\sum\limits_{k=1}^{n}A_{i

【轉】【NIO】Java NIO系列教程

http://ifeve.com/overview/ http://ifeve.com/java-nio-all/ https://www.cnblogs.com/duanxz/p/6759689.html 原文連結作者：Jako

【搜尋引擎】Whoosh 快速上手教程

Whoosh

構建Schema

Index

構建Index

讀取Index

IndexWriter

Searcher

相關推薦