基於python+whoosh的全文檢索實現

阿新 • • 發佈：2018-11-01

whoosh的官方介紹：http://whoosh.readthedocs.io/en/latest/quickstart.html

因為做的是中文的全文檢索需要匯入jieba工具包以及whoosh工具包

直接上程式碼吧

from whoosh.qparser import QueryParser
from whoosh.index import create_in
from whoosh.index import open_dir
from whoosh.fields import *
from jieba.analyse import ChineseAnalyzer
from get_comment import SQL
from whoosh.sorting import FieldFacet

analyser = ChineseAnalyzer()    #匯入中文分詞工具
schema = Schema(phone_name=TEXT(stored=True, analyzer=analyser), price=NUMERIC(stored=True),
                    phoneid=ID(stored=True))# 建立索引結構
ix = create_in("path", schema=schema, indexname='indexname') #path 為索引建立的地址，indexname為索引名稱
writer = ix.writer()
writer.add_document(phone_name='name',price ="price",phoneid ="id") #  此處為新增的內容 
print("建立完成一個索引")
writer.commit()
# 以上為建立索引的過程
new_list = []
index = open_dir("indexpath", indexname='comment')  #讀取建立好的索引
with index.searcher() as searcher:
    parser = QueryParser("要搜尋的專案，比如“phone_name", index.schema)
    myquery = parser.parse("搜尋的關鍵字")
    facet = FieldFacet("price", reverse=True)  #按序排列搜尋結果
    results = searcher.search(myquery, limit=None, sortedby=facet)  #limit為搜尋結果的限制，預設為10，詳見部落格開頭的官方文件
    for result1 in results:
        print(dict(result1))
        new_list.append(dict(result1))

注：

Whoosh 有一些很有用的預定義 field types，你也可以很easy的建立你自己的。
whoosh.fields.ID
這個型別簡單地將field的值索引為一個獨立單元（這意味著，他不被分成單獨的單詞）。這對於檔案路徑、URL、時間、類別等field很有益處。
whoosh.fields.STORED
這個型別和文件儲存在一起，但沒有被索引。這個field type不可搜尋。這對於你想在搜尋結果中展示給使用者的文件資訊很有用。
whoosh.fields.KEYWORD
這個型別針對於空格或逗號間隔的關鍵詞設計。可索引可搜尋（部分儲存）。為減少空間，不支援短語搜尋。
whoosh.fields.TEXT
這個型別針對文件主體。儲存文字及term的位置以允許短語搜尋。
whoosh.fields.NUMERIC
這個型別專為數字設計，你可以儲存整數或浮點數。
whoosh.fields.BOOLEAN
這個型別儲存bool型
whoosh.fields.DATETIME
這個型別為 datetime object而設計（更多詳細資訊）
whoosh.fields.NGRAM  和 whoosh.fields.NGRAMWORDS
這些型別將fiel文字和單獨的term分成N-grams（更多Indexing & Searching N-grams的資訊）

基於python+whoosh的全文檢索實現

whoosh的官方介紹：http://whoosh.readthedocs.io/en/latest/quickstart.html 因為做的是中文的全文檢索需要匯入jieba工具包以及whoosh工具包直接上程式碼吧 from whoosh.qparser import QueryPa

[原始碼和文件分享]基於Python的Django框架實現的人物資訊檢索系統

1 簡介這是一個利用Django搭建的一個人物資訊檢索系統，大約從Wikipedia爬取了10000 個人物資訊，並且提取了其中 Infobox 的對應資訊。對於 Wikipedia 中爬取的資訊，我們重新組織了其格式並且進行顯示。左側為搜尋頁面，右側為搜尋結果，匹配的欄位被

《深度學習入門：基於Python的理論與實現》高清中文版PDF+源代碼

mark 原理 col 外部 tps follow src term RoCE 下載：https://pan.baidu.com/s/1nk1IHMUYbcuk1_8tj6ymog 《深度學習入門：基於Python的理論與實現》高清中文版PDF+源代碼高清中文版PDF，3

分享《深度學習入門：基於Python的理論與實現》中文版PDF和原始碼

下載：（https://pan.baidu.com/s/1agBctMG7HF45VwhYpQHDSQ) 《深度學習入門：基於Python的理論與實現》高清中文版PDF+原始碼高清中文版PDF，314頁，帶目錄標籤，可複製貼上，高清晰。配套原始碼。深度學習真正意義上的入門書，深入淺出地剖析了深度學習

《深度學習入門：基於Python的理論與實現》高清中文版PDF+原始碼

下載：https://pan.baidu.com/s/1nk1IHMUYbcuk1_8tj6ymog 《深度學習入門：基於Python的理論與實現》高清中文版PDF+原始碼高清中文版PDF，314頁，帶目錄標籤，可複製貼上，高清晰。配套原始碼。深度學習真正意義上的入門書，深入淺出地剖析了深度學習的原

深度學習入門-基於Python的理論與實現感知機

目錄感知機感知機是什麼權重和偏置的含義單層感知機的侷限性多層感知機感知機感知機是什麼就是人工神經元權重越大，對應該權重的訊號的重要性就越高。權重和偏置的含義權重是控制輸入訊號重要性的引數，偏置是調整神經元被

《深度學習入門：基於Python的理論與實現》高清中文版PDF+原始碼下載

本書是深度學習真正意義上的入門書，深入淺出地剖析了深度學習的原理和相關技術。書中使用Python3，儘量不依賴外部庫或工具，從基本的數學知識出發，帶領讀者從零建立一個經典的深度學習網路，使讀者在此過程中逐步理解深度學習。書中不僅介紹了深度學習和神經網路的概念、特徵等基礎知識，對誤差反向傳播法、

分享《深度學習入門：基於Python的理論與實現》+PDF+源碼+齋藤康毅+陸宇傑

過程經典的 text proc log 使用網絡其中 itil 下載：https://pan.baidu.com/s/1FYcvG1tB__ooitilMpJC7w 更多資料分享：http://blog.51cto.com/14087171 《深度學習入門：基於Pyt

[原始碼分享]基於Python的Pygame庫實現的仿微信遊戲中的飛機大戰小遊戲

不知大家是否還記得當時微信上風靡一時的打飛機小遊戲，通過控制我方飛機的上下左右移動，發射子彈來擊毀敵機，增加得分。這是一款簡單操作易上手又很有趣味性的遊戲，我使用python作為基本語言，利用pygame仿照微信版本完成了這款低配版飛機大戰遊戲。我方飛機會按時的不斷髮射子彈，玩家通過上下左

深度學習入門:基於Python的理論與實現高清中文版PDF電子版下載附原始碼

本書特色1.日本深度學習入門經典暢銷書，原版上市不足2年印刷已達100 000冊。長期位列日亞“人工智慧”類圖書榜首，超多五星好評。2.使用Python 3，儘量不依賴外部庫或工具，從零建立一個深度學習模型。3.示例程式碼清晰，原始碼可下載，需要的執行環境非常簡單。讀者可以一邊讀書一邊執行程式，簡單易上手。4

深度學習入門:基於Python的理論與實現高清中文版PDF電子版下載附源代碼

圖形 alexnet 1.7 法則門電路版本求解 ·· 訪問本書特色1.日本深度學習入門經典暢銷書，原版上市不足2年印刷已達100 000冊。長期位列日亞“人工智能”類圖書榜首，超多五星好評。2.使用Python 3，盡量不依賴外部庫或工具，從零創建一個深度學習模型

[原始碼和文件分享]基於Python的Pygame庫實現的仿微信遊戲中的飛機大戰小遊戲

不知大家是否還記得當時微信上風靡一時的打飛機小遊戲，通過控制我方飛機的上下左右移動，發射子彈來擊毀敵機，增加得分。這是一款簡單操作易上手又很有趣味性的遊戲，我使用python作為基本語言，利用pygame仿照微信版本完成了這款低配版飛機大戰遊戲。我方飛機會按時的不斷髮射子彈，玩家通過上下左右的方向鍵來躲避

基於python、虹軟實現人臉檢測，人臉識別

虹軟的人臉識別技術也是很強的，重要的是他免費提供了離線的sdk，還提供了例項，這個是目前幾家研究人臉識別的大公司裡面少有的。識別能力正常用還是可以的。我這個程式碼是呼叫的離線sdk實現的 from arcsoft import CLibrary, ASVL_COLOR_FORMAT,

深度學習入門：基於Python的理論與實現(pdf+原始碼).7z

【下載地址】本書是深度學習真正意義上的入門書，深入淺出地剖析了深度學習的原理和相關技術。書中使用Python3，儘量不依賴外部庫或工具，從基本的數學知識出發，帶領讀者從零建立一個經典的深度學習網路，使讀者在此過程中逐步理解深度學習。書中不僅介紹了深度學習和神經網路的概念、特徵等基礎知識，

NLP之情感分析：基於python程式設計(jieba庫)實現中文文字情感分析(得到的是情感評分)

NLP之情感分析：基於python程式設計(jieba庫)實現中文文字情感分析(得到的是情感評分) 輸出結果 1、測試物件 data1= '今天上海的天氣真好！我的心情非常高興！如果去旅遊的話我會非常興奮！和你一起去旅遊我會更加幸福！' data2= '今天上海天氣真差,非常討厭下雨,把

[原始碼和文件分享]基於Python的Django框架實現的中式快餐廳管理資訊系統網站

1 初步調研隨著餐飲業的連鎖和國外餐飲巨頭的進入，餐飲業的競爭將越來越激烈：要想在競爭中處於不敗之地，必須在管理、服務等方面提高服務管理意識。面對當前餐飲業普遍的產業化程度低，管理手段、管理技術落後等問題，使用計算機管理在很大程度上可以幫助餐飲企業克服這些困難。計算機管理系統可以提高餐飲企業的

[原始碼和文件分享]基於Python的PyGame庫實現的2048小遊戲

一、簡介 2048的遊戲規則很簡單，每次可以選擇上下左右其中一個方向去滑動，每滑動一次，所有的數字方塊都會往滑動的方向靠攏外，系統也會在空白的地方亂數出現一個數字方塊，相同數字的方塊在靠攏、相撞時會相加。系統給予的數字方塊不是2就是4，玩家要想辦法在這小小的16格範圍中湊出“2048”這個數字方

Python深度學習深度學習入門基於Python的理論與實現學習資料

《Python深度學習》由Keras之父、現任Google人工智慧研究員的弗朗索瓦•肖萊（François Chollet）執筆，詳盡介紹了用Python和Keras進行深度學習的探索實踐，涉及計算機視覺、自然語言處理、生成式模型等應用。書中包含30多個程式碼示例，步驟講解詳細透徹。由於本書立足於人工智慧的可

Python深度學習深度學習入門基於Python的理論與實現學習資料

提高自然語言誤差實用由於理論進行學習資料獲取《Python深度學習》由Keras之父、現任Google人工智能研究員的弗朗索瓦?肖萊（Fran?ois Chollet）執筆，詳盡介紹了用Python和Keras進行深度學習的探索實踐，涉及計算機視覺、自然語

基於python的機器學習實現日元幣對人民幣匯率預測

## 匯入所需的包 import pandas as pd import numpy as np import matplotlib.pyplot as plt import tensorflow as tf tf.reset_default_graph() plt.rcParam

基於python+whoosh的全文檢索實現

相關推薦