利用elasticsearch實現搜尋引擎

阿新 • • 發佈：2019-01-01

ElasticSearch是一個基於Lucene的搜尋伺服器。它提供了一個分散式多使用者能力的全文搜尋引擎，基於RESTful web介面。Elasticsearch是用Java開發的，並作為Apache許可條款下的開放原始碼釋出，是第二最流行的企業搜尋引擎。設計用於雲端計算中，能夠達到實時搜尋，穩定，可靠，快速，安裝使用方便。本篇是在windows平臺下的運用

起步

1. 安裝jdk

2. 安裝elasticsearch-rtf

解壓後，在bin目錄下開啟命令列工具，輸入elasticsearch.bat執行指令碼，開啟瀏覽器，在位址列輸入http://127.0.0.1:9200

，如果返回資料則表示執行成功

3.安裝elasticsearch-head

這是(搜尋引擎)的視覺化管理工具，安裝要用到node.js的npm 外掛管理器，所以要先安裝node.js的npm 外掛管理器。

（1）安裝完後後，開啟命令列工具

    執行命令 npm

　 npm命令是node.js的npm外掛管理器，也就是下載外掛和安裝外掛的管理器，國外映象很慢可能會掉線，我們使用淘寶的npm映象cnpm

    執行命令：npm install -g cnpm --registry=https://registry.npm.taobao.org

啟用淘寶的npm映象cnpm，注意：啟用後當我們要輸入npm命令時，就需要輸入cnpm

（2）(搜尋引擎)的視覺化管理工具elasticsearch-head的安裝

　　　　下載後解壓到指定目錄

（3）cd進入到解壓的elasticsearch-head目錄，安裝elasticsearch-head的依賴包

    執行命令：cnpm install

　　　　
（4）啟動elasticsearch-head(搜尋引擎)的視覺化管理工具，訪問http://localhost:9100/，就可以看到(搜尋引擎)的視覺化管理工具。

    執行命令：cnpm run start

點選連線會發現是灰色的未連線狀態，這是因為elsaticsearch的安全策略，在5.0之後的版本不允許第三方外掛直接連線，需要修改配置檔案，在config資料夾下字尾為yml的檔案中新增以下配置：

    http.cors.enabled: true
    http.cors.allow-origin: "*"

重啟服務，點選連線，即可成功

應用

elasticsearch的詳細內容還請參閱相關文件，接下來會直接貼上我在使用elasticsearch來實現搜尋引擎時的步驟和一些注意事項。搜尋引擎是為了資料而存在的，所以你需要準備一個數據源，因此我用scrapy實現了一個簡單的爬蟲。
在使用前，為了準備資料要先啟動爬蟲將資料提交到elasticsearch，如感興趣具體可前往https://github.com/xinyan818/SimpleSearch-TST

1.宣告doc_type

doc_type在elasticsearch中類似關係型資料庫中的資料表，我們需要實現它。

# 資料型別
from elasticsearch_dsl import DocType, Completion, Keyword, Text, Boolean, Integer, Date
# 引入連結函式
from elasticsearch_dsl.connections import connections
# 引入elasticsearch中的分析器
from elasticsearch_dsl.analysis import CustomAnalyzer

# 建立Es連結
connections.create_connection(hosts=["127.0.0.1"])


# 自定義分詞器
class MyAnalyzer(CustomAnalyzer):

    def get_analysis_definition(self):
        return {}

# 建立分析器物件
# 忽略大小寫的篩選器


ik_analyzer = MyAnalyzer('ik_max_word', filter=['lowercase'])


class NewsType(DocType):

    # 搜尋建議欄位
    # Completion 用來做搜尋建議的型別
    # 不能直接指定分詞器名，需要指定一個自定義分詞器
    suggest = Completion(analyzer=ik_analyzer)

    # 分詞
    title = Text(analyzer="ik_max_word")
    category = Text()
    f_url = Text()
    intro = Text(analyzer="ik_max_word")
    source = Text()
    time = Date()

    # Meta
    class Meta:
        # 索引名稱
        index = 'news'
        doc_type = 'fashion'


if __name__ == '__main__':
    NewsType.init()

執行這個python檔案即可在服務中宣告一個名為news的index，和在其之下名為fashion的type，

2.搜尋結果的檢視函式

#搜尋結果頁面
def result(request):
    if request.method == 'GET':
        # 取出關鍵詞 搜尋型別 頁碼
        keyword = request.GET.get('kw', None)
        s_type = request.GET.get('s_type', 'blog')
        page_num = request.GET.get('pn', 1)
        # 沒有關鍵詞，定向到首頁
        if not keyword:
            return redirect('/')
        # 判斷搜尋型別
        # 搜尋
        if s_type == 'news':
            # 1. 搜尋的索引
            index = 'news'
            doc_type = 'fashion'
            fields = ['title', 'intro']
            start = datetime.now()
            rs = es.search(
                index=index,
                doc_type=doc_type,
                body={
                    'query': {
                        'multi_match': {
                            'query': keyword,
                            'fields': fields
                        }
                    },
                    'from': (int(page_num)-1)*10,
                    'size': 10,
                    'highlight': {
                        'pre_tags': ['<span class="KeyWord">'],
                        'post_tags': ['</span>'],
                        'fields': {
                            'title': {},
                            'intro': {}
                        }
                    }
                }
            )
            # 搜尋花費時間
            # total_seconds() 統計秒數
            use_time = (datetime.now() - start).total_seconds()
            hits_list = []
            for hit in rs['hits']['hits']:
                try:
                    h_dic = {}
                    # 判斷highlight中有沒有title
                    if 'title' in hit['highlight'].keys():
                        h_dic['title'] = hit['highlight']['title'][0]
                    else:
                        h_dic['title'] = hit['_source']['title']

                    # 再判斷intro
                    if 'intro' in hit['highlight'].keys():
                        intro_list = hit['highlight']['intro']
                        intro_list.reverse()
                        h_dic['content'] = ''.join(intro_list)
                    else:
                        h_dic['content'] = hit['_source']['intro']

                    # 詳情地址
                    h_dic['detail_url'] = hit['_source']['f_url']
                except:
                    continue
                hits_list.append(h_dic)
            navs = NAVS
            # 計算頁碼
            total = rs['hits']['total']

            page_nums = int(math.ceil(total/10))

            page_num = int(page_num)
            if page_num < 6:
                if page_nums <= 10:
                    pages = range(1, page_nums+1)
                else:
                    pages = range(1, 11)
            elif (page_num >= 6) and (page_num <= page_nums - 5):


                pages = range(page_num - 5, page_num + 5)
            else:
                if page_nums <= 10:
                    pages = range(1, page_nums+1)
                else:
                    pages = range(page_nums-9, page_nums + 1)

            data = {
                'navs': navs,
                'search_type': s_type,
                'hits_list': hits_list,
                'kw': keyword,
                'pages': pages,
                'page_nums': page_nums,
                'pn': page_num,
                'total': total,
                'use_time': use_time
            }
            return render(request, 'result.html', data)

利用elasticsearch實現搜尋引擎

ElasticSearch是一個基於Lucene的搜尋伺服器。它提供了一個分散式多使用者能力的全文搜尋引擎，基於RESTful web介面。Elasticsearch是用Java開發的，並作為Apache許可條款下的開放原始碼釋出，是第二最流行的企業搜

Python基於Elasticsearch實現搜尋引擎

＆nbsp; ＆NBSP; ＆NBSP; ＆NBSP; ElasticSearch是一個基於Lucene的搜尋伺服器。它提供了一個分散式多使用者能力的全文搜尋引擎，基於RESTful Web介面.Elasticsearch是用Java開發的，並作為Apac

python利用Trie(字首樹)實現搜尋引擎中關鍵字輸入提示（學習Hash Trie和Double-array Trie）

python利用Trie(字首樹)實現搜尋引擎中關鍵字輸入提示（學習Hash Trie和Double-array Trie）主要包括兩部分內容：（1）利用python中的dict實現Trie；（2）按照darts-java的方法做python的實現Double-array Trie比較：（1）

Elasticsearch實現類似百度的搜尋引擎搜尋功能（下拉自動補全）

{ "refresh_interval":"3s", "number_of_replicas":1, "number_of_shards":5, "analysis":{ "filter":{ "autocomplete_filter":{ "type":"

Java利用Redis實現消息隊列

.get keys rpo throws max del 鍵值先進先出 instance 應用場景為什麽要用redis?二進制存儲、java序列化傳輸、IO連接數高、連接頻繁一、序列化　　這裏編寫了一個java序列化的工具,主要是將對象轉化為byte數組,和根

利用Tensorflow實現神經網絡模型

flow one 什麽 hold test ase tensor dom def 首先看一下神經網絡模型，一個比較簡單的兩層神經。代碼如下： # 定義參數 n_hidden_1 = 256 #第一層神經元 n_hidden_2 = 128 #第

利用Sentinel實現Redis主從切換

edi nbsp ilo bind redis poc 自主日誌 sent 利用Sentinel(哨兵)實現Redis集群的故障自主切換首先部署redis主從集群，這裏忽略過程，主要看配置文件: master： bind 0.0.0.0 port 6801 log

利用FT232實現USB轉串口

可能性 olt documents generated ply pl2 繪制很好 ner FT232B數據手冊：http://www.ftdichip.com/Support/Documents/DataSheets/ICs/DS_FT232BL_BQ.pdf 常用的US

[轉] 利用js實現禁用瀏覽器後退

cti scrip style 瀏覽器中文本框所有方案 att word [From] http://blog.csdn.net/zc474235918/article/details/53138553 現在很多的內部系統，一些界面，都是用戶手動點擊退出按鈕的。但

利用Selenium實現圖片文件上傳的兩種方式介紹

最簡 pfile 狀態 blog nbsp ftw fin send find 在實現UI自動化測試過程中，有一類需求是實現圖片上傳，這種需求根據開發的實現方式，UI的實現方式也會不同。一、直接利用Selenium實現這種方式是最簡單的一種實現方式，但是依賴於

LN : JSON 利用C++實現JSON

ava cxf long auto chang exp sld ngxin chan Java%E7%A8%8B%E5%BA%8F%E5%91%98%E7%9A%84%E6%97%A5%E5%B8%B8%20%E2%80%94%E2%80%94%20Java%E7%B1%B

如何用Elasticsearch實現類似SQL中的IN查詢實例

red ast last .cn lte style sea ges logs 我想實現類似如下sql語句的效果： select * from table1 where rw_id in (‘7a482589-e52e-0887-4dd5-5821aab77eea‘,‘c

利用GDAL實現影像的幾何校正

pad 傳感 ons 結構 turn 關聯 oat eve gre 一、概述遙感影像和地理坐標進行關聯的方式一般有好幾種，一種是直接給出了仿射變換系數，即6個參數，左上角地理坐標，縱橫方向上的分辨率，以及旋轉系數。在這樣的情況下，求出某一像素點的地理坐標非常eas

php利用gd實現圖片的邊框

col spl tmp pic ora play 圖片取圖 from 1 <?php 2 3 //實現兩張圖片合並並內圖片有一定的邊框 4 5 $file = ‘image/qr_1047.png‘; 6 $logo = ‘image/log

利用shell實現判斷局域網內在線用戶有那些

利用shell實現判斷局域網內在線用戶有那些#!/bin/bash while true; do for I in {100..120};do ping -c 2 -w 2 192.168.0.$I &>/dev/null if [ $? -eq 0 ];then

利用jsonp實現跨域請求

get p地址 doc ajax請求 -s tar 原理安全策略都是　　同源策略，它是由Netscape提出的一個著名的安全策略。現在所有支持JavaScript 的瀏覽器都會使用這個策略。所謂同源是指，域名，協議，端口相同。當一個瀏覽器的兩個tab頁中分別打開來百

利用ListView實現類似物流詳情的進度顯示

class cnblogs bsp idt ges height eight 效果圖進度顯示實現效果圖：一、UI實現布局文件：二、數據實現利用ListView實現類似物流詳情的進度顯示

Nginx+Tomcat反向代理利用certbot實現https

per share 反向 oot 一段 new gree package cti 一、利用Let‘s Encrypt 免費生成HTTPS證書 1、下載安裝certbot(Let‘s Encrypt ) 2、利用certbot生成證書 3、配置nginx的https證書安裝

利用toggle實現背包

如圖所示技術分享 ges com 界面 nor graphic 背包圖片 1.先創建入如圖所示界面 2.在圖片下面創建一個選中狀態圖片 3.在normal圖片添加toggle組件，將子物體拖動到graphic裏利用toggle實現背包

PHP利用P3P實現跨域

method php evaluate payment 接受可能 contains strong rac 有別於js跨域、IFRAME跨域等的常用處理辦法，還可以利用P3P來實現跨域。 P3P是什麽 P3P（Platform for Privacy Preferenc

利用elasticsearch實現搜尋引擎

起步

1. 安裝jdk

2. 安裝elasticsearch-rtf

3.安裝elasticsearch-head

應用

1.宣告doc_type

2.搜尋結果的檢視函式

相關推薦