ElasticSearch改造研報查詢實踐

阿新 • • 發佈：2018-02-13

auth 條件查詢 num 需要千萬背景 curl 不同獲取

背景：

　　1，系統簡介：通過人工解讀研報然後獲取並錄入研報分類及摘要等信息，系統通過摘要等信息來獲得該研報的URI

　　2，現有實現：老系統使用MSSQL存儲摘要等信息，並將不同的關鍵字分解為不同字段來提供搜索查詢

　　3，存在問題：

　　　　-查詢操作繁瑣,死板：例如要查某個機構，標題含有周報的研報，現有系統需要勾選相應字段再輸入條件

　　　　-查詢速度緩慢，近千萬級別數據響應時間4-5s

　　4，改進：使用es優化，添加多個關鍵字模糊查詢(非長文本數據，因此未使用_socre進行評分查詢)

　　　　-例如：輸入“國泰君安周報”就可查詢到所有相關的國泰君安的周報

1，新建Index

curl -X PUT ‘ 
localhost:9200/src_test_1‘ -H ‘Content-Type: application/json‘ -d ‘
{
    "settings": {
        "number_of_shards": 1,
        "number_of_replicas": 0
    },
  "mappings": {
    "doc_test": {
      "properties": {
        "title": {#研報綜合標題
          "type": "text",
          "analyzer": "ik_max_word",
           
"search_analyzer": "ik_max_word"
        },
        "author": {#作者
          "type": "text",
          "analyzer": "ik_max_word",
          "search_analyzer": "ik_max_word"
        },
        "institution": {#機構
            "type": "text",
            "analyzer": "ik_max_word",
            "search_analyzer 
": "ik_max_word"
        },
          "industry": {#行業
              "type": "text",
              "analyzer": "ik_max_word",
              "search_analyzer": "ik_max_word"
          },
          "grade": {#評級
              "type": "text",
              "analyzer": "ik_max_word",
              "search_analyzer": "ik_max_word"
          },
          "doc_type": {#研報分類
              "type": "text",
              "analyzer": "ik_max_word",
              "search_analyzer": "ik_max_word"
          },
         "time": {#發布時間
          "type": "date" ,
          "format": "yyyy-MM-dd HH:mm:ss||yyyy-MM-dd||epoch_millis"
         },
          "doc_uri": {#地址
           "type": "text",
            "index":false
         },
          "doc_size": {#文件大小
           "type": "integer",
            "index":false
         },
          "market": {#市場
          "type": "byte"
         }
      }
    }
  }
}‘

2，數據導入(CSV分批)

import pandas as pd
import numpy as np
from elasticsearch import Elasticsearch
from elasticsearch.helpers import bulk
es = Elasticsearch()

data_will_insert = []
x = 1

# #使用pandas讀取csv數據；如果出現亂碼加：encoding = "ISO-8859-1"
src_data = pd.read_csv(‘ResearchReportEx.csv‘)

for index,i in src_data.iterrows():
    x+=1
    #每次插入100000條
    if x%100000 == 99999:
        #es批量插入
        success, _ = bulk(es, data_will_insert, index=‘src_test_1‘, raise_on_error=True)
        print(‘Performed %d actions‘ % success)
        data_will_insert = []

    #判斷市場
    if i[‘ExchangeType‘] == ‘CN‘:
        market = 0
    elif i[‘ExchangeType‘] == ‘HK‘:
        market = 1
    elif i[‘ExchangeType‘] == ‘World‘:
        market = 2
    else:
        market = 99

    data_will_insert.append({"_index":‘src_test_1‘,"_type": ‘doc_test‘,‘_source‘:
                {
                ‘title‘:i[‘Title‘],
                ‘author‘:i[‘AuthorName‘],
                ‘time‘:i[‘CreateTime‘]+‘:00‘,
                ‘institution‘:i[‘InstituteNameCN‘],
                ‘doc_type‘:i[‘KindName‘] if i[‘Kind2Name‘] is np.NaN else i[‘KindName‘]+‘|%s‘ % i[‘Kind2Name‘],
                ‘industry‘:‘‘ if i[‘IndustryName‘] is np.NaN else i[‘IndustryName‘],
                ‘grade‘:‘‘ if i[‘GradeName‘] is np.NaN else i[‘GradeName‘],
                ‘doc_uri‘:i[‘FileURL‘],
                ‘doc_size‘:i[‘Size‘],
                ‘market‘:market
                }
                })

#將最後剩余在list中的數據插入
if len(data_will_insert)>0:
    success, _ = bulk(es, data_will_insert, index=‘src_test_1‘, raise_on_error=True)
    print(‘Performed %d actions‘ % success)

3，查詢

import time
from elasticsearch import Elasticsearch
from elasticsearch.helpers import scan

# es連接
es = Elasticsearch()


# 計算運行時間裝飾器
def cal_run_time(func):
    def wrapper(*args, **kwargs):
        start_time = time.time()
        res = func(*args, **kwargs)
        end_time = time.time()
        print(str(func) + ‘---run time--- %s‘ % str(end_time - start_time))
        return res

    return wrapper


@cal_run_time
def query_in_es():
    body = {
        "query": {
            "bool": {
                "must": [
                    {
                        "multi_match": {
                            "query": "國泰 報告",
                            "type": "cross_fields",#跨字段匹配
                            "fields": ["title", "institution","grade"
                                       "doc_type","author","industry"],#在這6個字段中進行查找
                            "operator": "and" 
                        }#此查詢條件等於：query中的關鍵都在fields中所有字段拼接成的字符中
                    },
                    {
                        "range": {
                            "time": {
                                "gte": ‘2018-02-01‘#默認查詢限制時間
                            }
                        }
                    }
                ],
            }
        }
    }

    # 根據body條件查詢
    scanResp = scan(es, body, scroll="10m", index="src_test_1", doc_type="doc_test", timeout="10m")
    row_num = 0

    for resp in scanResp:
        print(resp[‘_source‘])
        row_num += 1

    print(row_num)


query_in_es()

※測試結果速度相當快：多關鍵字查詢只需零點幾秒

ElasticSearch改造研報查詢實踐

auth 條件查詢 num 需要千萬背景 curl 不同獲取背景：　　1，系統簡介：通過人工解讀研報然後獲取並錄入研報分類及摘要等信息，系統通過摘要等信息來獲得該研報的URI 　　2，現有實現：老系統使用MSSQL存儲摘要等信息，並將不同的關鍵字分解為不同字段來提

Elasticsearch+Mongo億級別數據導入及查詢實踐

參數配置 doc 時間 col lin 時區 start sta bulk 數據方案：在Elasticsearch中通過code及time字段查詢對應doc的mongo_id字段獲得mongodb中的主鍵_id 通過獲得id再進入mongodb進行查詢 1，數據情

Elasticsearch從0到千萬級資料查詢實踐（非轉載）

1.es簡介　　1.1 起源　　https://www.elastic.co/cn/what-is/elasticsearch，es的起源，是因為程式設計師Shay Banon在使用Apache Lucene發現不太好用，然後手動改造升級的過程中發展起來的。（程式設計師就是需要有這種動力~）實際

Elasticsearch學習之多種查詢方式

完全 mar commerce 生產 pro 命令行 str 令行 {} 1. query string search 　　搜索全部商品：GET /ecommerce/product/_search 　　took：耗費了幾毫秒　　timed_out：是否超時，這裏是沒有　　

elasticsearch之分詞查詢

elasticsearch使用elk時，search時默認帶有分詞功能，搜索關鍵字並不精準，為方便search查詢，將分詞功能禁用：curl -XPUT http://localhost:9200/_template/template_1 -d ‘{"template" : "*","order":0,"se

elasticsearch高級組合查詢ava

mod ear tran sys () else rep 字段 advance /** * 高級檢索（組合條件檢索）must相當於sql and操作 * @param modelType 0為模糊查詢，1為精確查詢 * @param index 索引

Elasticsearch java api 常用查詢方法QueryBuilder構造舉例

舉例 div detail lang 模糊查詢 dna true builder earch 轉載：http://m.blog.csdn.net/u012546526/article/details/74184769 Elasticsearch java api 常用查詢

ElasticSearch 聚合嵌套查詢

文本 gre ext range 讓我 ESS 學習講解 error 第一個分析需求：計算每個tag下的商品數量 GET /ecommerce/product/_search{ "aggs": { "group_by_tags": { "terms":

幣氪研報- Ontology(ONT)

需求有時圖1 edi 主頁正式超融合 book 之間本體是新一代公有基礎鏈項目＆分布式信任協作平臺。本體提供新一代高性能基礎公有鏈，包括完整的分布式賬本，智能合約體系支持。同時本體架構支持公有鏈網體系，除了提供基礎公有鏈服務，通過本體區塊鏈框架支持不同應用的公

ElasticSearch常用操作：查詢與聚合篇

使用目的復雜但是應用條件說明 exist 5.4 [TOC] 0 說明基於es 5.4和es 5.6，列舉的是個人工作中經常用到的查詢（只是工作中使用的是Java API），如果需要看完整的，可以參考官方相關文檔https://www.elastic.co/

elasticsearch下的各種查詢

elasticsearch是功能非常強大的搜尋引擎，使用它的目的就是為了快速的查詢到需要的資料。查詢分類：基本查詢：使用elasticsearch內建查詢條件進行查詢 &nb

資料結構與演算法基礎-02-二分查詢-實踐

演算法中查詢演算法和排序演算法可謂是最重要的兩種演算法，是其他高階演算法的基礎。在此係列文章中，將逐一學習和總結這兩種基礎演算法中常見的演算法實現。首先，第一種演算法——二分(折半)查詢的學習和練習。 1、概念二分查詢，是逐次將查詢範圍折半，縮小搜尋的範圍，直到找到那個需要的結果。

第8講 8.ElasticSearch組合多條件查詢

1，在elasticsearch-head 圖形化介面端，模糊查詢標題含有“戰”的查詢(query,bool,must, 和match引數設定)。post 請求，_search引數，film索引下的dongzuo類，返回值有得分； &nb

elasticsearch基本概念與查詢語法

序言後面有大量類似於mysql的sum， group by查詢elk=== elk總體架構 https://www.elastic.co/cn/products Beat 基於go語言寫的輕量型資料採集器，讀取資料，迅速傳送到Logstash進行解析，亦

幣氪研報|DOGE（dogecoin）

1. 專案基本情況 1.1 專案簡介 DOGE（dogecoin），中文稱狗狗幣，誕生於2013年12月8日，作者是澳大利亞人Jackson Palmer與美國人Billy Markus。Dogecoin基於Scrypt演算法，交易確認時間為1分鐘，較比特幣更加迅速。基

elasticsearch 深入 —— Scroll滾動查詢

Scroll search 請求返回一個單一的結果“頁”，而 scroll API 可以被用來檢索大量的結果（甚至所有的結果），就像在傳統資料庫中使用的遊標 cursor。滾動並不是為了實時的使用者響應，而是為了處理大量的資料，例如，為了使用不同的配置來重新索引一個 i

Maven編譯elasticsearch-analysis-ik報錯

Linux7.4下使用Maven編譯打包elasticsearch-analysis-ik-1.8.1.zip，執行：mvn package時報錯，借"u012348345"部落格圖一用：執行 u

讀研報20180929

1.A股缺乏有效的股票做空機制，因子收益率無法完全轉換為投資收益。對於純多頭投資，alpha因子的空頭組合可以起到幫投資者篩選股票的作用，但收益的主要收益還是來自多頭。如果把因子得分前10%的股票做成等權組合，能獲取收益的只有估值因子。流動性因子和投機因子的多頭組合都是虧錢的

SpringBoot 整合 Elasticsearch深度分頁查詢

es 查詢共有4種查詢型別 QUERY_AND_FETCH: 　　主節點將查詢請求分發到所有的分片中，各個分片按照自己的查詢規則即詞頻文件頻率進行打分排序，然後將結果返回給主節點，主節點對所有資料進行彙總排序然後再返回給客戶端，此種方式只需要和es互動一次。這種查詢方式存在資料量和排序問題，

Elasticsearch 時間分組聚合查詢

正常業務邏輯中，會出現大量的資料統計，比如說分組聚合查詢，根據天進行資料的統計，記錄下es分組聚合查詢 { "size": 0, "aggs": { "groupDate": { "date_histogram": {

ElasticSearch改造研報查詢實踐

相關推薦