使用python+whoosh實現全文檢索

阿新 • • 發佈：2020-01-09

whoosh的官方介紹：http://whoosh.readthedocs.io/en/latest/quickstart.html

因為做的是中文的全文檢索需要匯入jieba工具包以及whoosh工具包

直接上程式碼吧

from whoosh.qparser import QueryParser 
from whoosh.index import create_in 
from whoosh.index import open_dir 
from whoosh.fields import * 
from jieba.analyse import ChineseAnalyzer 
from get_comment import SQL 
from whoosh.sorting import FieldFacet 
 
analyser = ChineseAnalyzer()  #匯入中文分詞工具 
schema = Schema(phone_name=TEXT(stored=True,analyzer=analyser),price=NUMERIC(stored=True),phoneid=ID(stored=True))# 建立索引結構 
ix = create_in("path",schema=schema,indexname='indexname') #path 為索引建立的地址，indexname為索引名稱 
writer = ix.writer() 
writer.add_document(phone_name='name',price ="price",phoneid ="id") # 此處為新增的內容  
print("建立完成一個索引") 
writer.commit() 
# 以上為建立索引的過程 
new_list = [] 
index = open_dir("indexpath",indexname='comment') #讀取建立好的索引 
with index.searcher() as searcher: 
  parser = QueryParser("要搜尋的專案，比如“phone_name",index.schema) 
  myquery = parser.parse("搜尋的關鍵字") 
  facet = FieldFacet("price",reverse=True) #按序排列搜尋結果 
  results = searcher.search(myquery,limit=None,sortedby=facet) #limit為搜尋結果的限制，預設為10，詳見部落格開頭的官方文件 
  for result1 in results: 
    print(dict(result1)) 
    new_list.append(dict(result1))

注：

Whoosh 有一些很有用的預定義 field types，你也可以很easy的建立你自己的。

whoosh.fields.ID

這個型別簡單地將field的值索引為一個獨立單元（這意味著，他不被分成單獨的單詞）。這對於檔案路徑、URL、時間、類別等field很有益處。

whoosh.fields.STORED

這個型別和文件儲存在一起，但沒有被索引。這個field type不可搜尋。這對於你想在搜尋結果中展示給使用者的文件資訊很有用。

whoosh.fields.KEYWORD

這個型別針對於空格或逗號間隔的關鍵詞設計。可索引可搜尋（部分儲存）。為減少空間，不支援短語搜尋。

whoosh.fields.TEXT

這個型別針對文件主體。儲存文字及term的位置以允許短語搜尋。

whoosh.fields.NUMERIC

這個型別專為數字設計，你可以儲存整數或浮點數。

whoosh.fields.BOOLEAN

這個型別儲存bool型

whoosh.fields.DATETIME

這個型別為 datetime object而設計（更多詳細資訊）

whoosh.fields.NGRAM 和 whoosh.fields.NGRAMWORDS

這些型別將fiel文字和單獨的term分成N-grams（更多Indexing & Searching N-grams的資訊）

以上這篇使用python+whoosh實現全文檢索就是小編分享給大家的全部內容了，希望能給大家一個參考，也希望大家多多支援我們。

使用python+whoosh實現全文檢索

whoosh的官方介紹：http://whoosh.readthedocs.io/en/latest/quickstart.html 因為做的是中文的全文檢索需要匯入jieba工具包以及whoosh工具包

django-haystack+jieba+whoosh實現全文檢索

1haystack簡介　　1.1、什麼是haystack? 　　　　　　1.haystack是django的開源搜尋框架，該框架支援Solr,Elasticsearch,Whoosh, *Xapian*搜尋引擎，不用更改程式碼，直接切換引擎，減少程式碼量。

02.pyton與whoosh的全文檢索功能實現

1.基本介紹本文主要講的是前後端分離前後端不分離：https://www.cnblogs.com/xiaonq/p/12363589.html

django haystack實現全文檢索的示例程式碼

全文檢索裡的元件簡介 1. 什麼是haystack？ 1. haystack是django的開源搜尋框架，該框架支援Solr,Elasticsearch,Whoosh,*Xapian*搜尋引擎，不用更改程式碼，直接切換引擎，減少程式碼量。

Mysql實現全文檢索、關鍵詞跑分的方法例項

一、前言今天一個同事問我，如何使用 Mysql 實現類似於 ElasticSearch 的全文檢索功能，並且對檢索關鍵詞跑分？我當時腦子裡立馬產生了疑問？為啥不直接用es呢？簡單好用還賊快。但是聽他說，資料量不多，客戶給的時

springboot整合ES實現磁碟檔案全文檢索的示例程式碼

最近有個朋友諮詢如何實現對海量磁碟資料進行目錄、檔名及檔案正文進行搜尋，要求實現簡單高效、維護方便、成本低廉。我想了想利用ES來實現文件的索引及搜尋是適當的選擇，於是就著手寫了一些程式碼來實現，下面就將

Django Haystack 全文檢索與關鍵詞高亮的實現

作者：HelloGitHub-追夢人物文中所涉及的示例程式碼，已同步更新到HelloGitHub-Team 倉庫

05.使用ES替代whoosh全文檢索

1.docker安裝ES 1.拉取docker映象 # 從倉庫拉取映象 sudo docker image pull delron/elasticsearch-ik:2.4.6-1.0

全文檢索django-haystack+jieba+whoosh

全文檢索django-haystack+jieba+whoosh 全文檢索裡的元件簡介 1、什麼是haystack？ 1. haystack是django的開源搜尋框架，該框架支援Solr,Elasticsearch,Whoosh, Xapian搜尋引擎，不用更改程式碼，直接切換引擎，減少

python根據BM25實現文字檢索

目的給定一個或多個搜尋詞，如“高血壓患者”，從已有的若干篇文字中找出最相關的(n篇)文字。

火力全開——仿造Baidu簡單實現基於Lucene.net的全文檢索的功能

Lucene.Net Lucene.net是Lucene的.net移植版本，是一個開源的全文檢索引擎開發包，即它不是一個完整的全文檢索引擎，而是一個全文檢索引擎的架構，是一個Library.你也可以把它理解為一個將索引,搜尋功能封裝的很好的

一日一技：在 Python 中實現函式過載

假設你有一個函式connect，它有一個引數address，這個引數可能是一個字串，也可能是一個元組。例如：

一文讓你輕鬆瞭解全文檢索

全文檢索技術被廣泛的應用於搜尋引擎，查詢檢索等領域。我們在網路上的大部分搜尋服務都用到了全文檢索技術。

乾貨 |《從Lucene到Elasticsearch全文檢索實戰》拆解實踐

1、題記 2018年3月初，萌生了一個想法：對Elasticsearch相關的技術書籍做拆解閱讀，該想法源自非計算機領域紅火已久的【樊登讀書會】、得到的每天聽本書、XX拆書幫等。

SpringCloud融入Python的實現

前言該篇文章分享如何將Python Web服務融入到Spring Cloud微服務體系中，並呼叫其服務，Python Web框架用的是Tornado

Python+Redis實現布隆過濾器

布隆過濾器是什麼　　布隆過濾器（Bloom Filter）是1970年由布隆提出的。它實際上是一個很長的二進位制向量和一系列隨機對映函式。布隆過濾器可以用於檢索一個元素是否在一個集合中。它的優點是空間效率和查詢時間都

python+mysql實現個人論文管理系統

本文例項為大家分享了python mysql個人論文管理系統的具體程式碼，供大家參考，具體內容如下

在SQLite-Python中實現返回、查詢中文欄位的方法

博主在這個問題上卡了挺久的，貼出來解決方法幫助需要的朋友，直接上程式碼（測試環境：win10+Python2.7）：

python+mysql實現學生資訊查詢系統

本文例項為大家分享了python mysql學生資訊查詢系統的具體程式碼，供大家參考，具體內容如下

用python簡單實現mysql資料同步到ElasticSearch的教程

之前部落格有用logstash-input-jdbc同步mysql資料到ElasticSearch，但是由於同步時間最少是一分鐘一次，無法滿足線上業務，所以只能自己實現一個，但是時間比較緊，所以簡單實現一個

使用python+whoosh實現全文檢索

相關推薦