python bulk批量儲存elasticsearch資料

阿新 • • 發佈：2018-11-28

之前用kclpy讀取kinesis流資料，處理並儲存到elasticsearch中，現在發現elk中的資料展示與當前時間差越來越大（源資料增加了三倍）。閱讀kinesis文件進行相應分片、例項數擴充套件，均沒有明顯效果。

重新優化了下程式碼，使用了bulk批量儲存資料到elasticsearch，存放速率明顯提高。

相關示例程式碼：

from datetime import datetime
import pytz 
import time
from elasticsearch import Elasticsearch 
from elasticsearch.helpers import 
 bulk
import json

es = Elasticsearch(hosts=[{'host': "ip", 'port': "9200"}], http_auth=("username", "password")) 
def index_bulk():
    ACTIONS = []
    count = 0
    for i in range(500):
        t = time.time()
        kinesisdict = {
            "priority": 0, 
            "tags": {i},
            "threshold 
": 0, 
            "kinesis": True, 
            "env": "test", 
            "region": "cn", 
            "metric": "/var/log/sengled/bulk.log", 
            "dataSource": "bulk", 
            "service": "bulk", 
            "status": "", 
            "endpoint": "test-cn-inception-10.12.112.165", 
             
"starttime": t, 
            "product": "bulk", 
            "step": 0, 
            "value": "bulk", 
            "ip": "10.12.112.165", 
            "objectType": "dev", 
            "endtime": t, 
            "timestamp": t, 
            "counterType": ""
        }
        count = i

        # kinesisdict = json.loads(json.dumps(bulk_json))
        kdict = kinesisdict.copy()
        kdict['@timestamp'] = datetime.fromtimestamp(int(kinesisdict['timestamp']),pytz.timezone('Asia/Shanghai'))
        if kdict['starttime'] == 0:
            kdict['starttime'] = datetime.fromtimestamp(int(kinesisdict['timestamp']),pytz.timezone('Asia/Shanghai'))
        else:
            kdict['starttime'] = datetime.fromtimestamp(int(kinesisdict['starttime']),pytz.timezone('Asia/Shanghai'))

        if kdict['endtime'] == 0:
            kdict['endtime'] = datetime.fromtimestamp(int(kinesisdict['timestamp']),pytz.timezone('Asia/Shanghai'))
        else:
            kdict['endtime'] = datetime.fromtimestamp(int(kinesisdict['endtime']),pytz.timezone('Asia/Shanghai'))

        kdict['value'] = str(kinesisdict['value'])
        kdict['threshold'] = str(kinesisdict['threshold'])
        kdict['tags'] = str(kinesisdict['tags'])
        del kdict['timestamp'] 

        action = {
            "_index": "kinesis-2018.07.19",
            "_type": "kinesisdata",
            "_source": kdict
        }
        ACTIONS.append(action)
    print(ACTIONS)
    bulk(es, ACTIONS, index = "kinesis-2018.11.28", raise_on_error=True)

    print("insert %s lines" % count)


index_bulk()

python bulk批量儲存elasticsearch資料

之前用kclpy讀取kinesis流資料，處理並儲存到elasticsearch中，現在發現elk中的資料展示與當前時間差越來越大（源資料增加了三倍）。閱讀kinesis文件進行相應分片、例項數擴充套件，均沒有明顯效果。重新優化了下程式碼，使用了bulk批量儲存資料到elasticsearch，存放速率明

利用python指令碼批量生成測試資料並插入資料庫

測試工作中有時候需要做一些假的測試資料，有些資料很多，上千條，手工做的話能累到你懷疑人生！這時候就該想到可以利用python指令碼來實現啦方法一：先寫入txt 然後用sql迴圈執行1.首先python連結資料庫有第三方的庫首先你要安裝pymysql（連結mysql用的），安裝

python 實現批量post json資料測試

伺服器之前經常出現發訊息就會宕機，今天修改了部分之後，就用python實現了一個批量post資料測試。直接上程式碼。url 是測試版，你看到這份程式碼的時候，應該已經不能用了，童鞋需要自己有可以測試的url哦。 (我的測試環境是，聊天測試，所以你會看到有一個req_id

使用Python-elasticsearch-bulk批量快速向elasticsearch插入資料

最近遇到一個批量向elasticsearch插入資料低效率的問題，在網上找到如下解決方案： https://segmentfault.com/q/1010000005027014 對，就是使用elasticsearch內建的bulk API進行批量的插入操作。同樣

用python批量獲取某路徑資料夾及子資料夾下的指定型別檔案，並按原資料夾結構批量儲存處理後的檔案

因為是把自己成功執行的整個程式碼按幾部分截取出來的，所以每一小節程式碼不一定能單獨執行，特此說明。 1.獲取某路徑資料夾及子資料夾下的指定pcm型別檔案的全部路徑 import os def eachfile(filepath): pathdi

java呼叫Linux執行Python爬蟲，並將資料儲存到elasticsearch--（一、環境指令碼搭建）

java呼叫Linux執行Python爬蟲，並將資料儲存到elasticsearch中一、以下部落格程式碼使用的開發工具及環境如下： 1、idea： 2、jdk：1.8 3、elasticsearch：5.2.0 4、Linux 5、Python 6、maven 二、maven座標： <!--jav

Python爬蟲實戰：批量採集股票資料，並儲存到Excel中

小編說：通過本文，讀者可以掌握分析網頁的技巧、Python編寫網路程式的方法、Excel的操作，以及正則表示式的使用。這些都是爬蟲專案中必備的知識和技能。本文選自《Python帶我起飛》。例項描述：通過編寫爬蟲，將指定日期時段內的全部上市公司股票資料爬取下來，並按照股

Elasticsearch —— bulk批量匯入資料

在使用Elasticsearch的時候，一定會遇到這種場景——希望批量的匯入資料，而不是一條一條的手動匯入。那麼此時，就一定會需要bulk命令！更多內容參考我整理的Elk教程 bulk批量匯入批量匯入可以合併多個操作，比如index,delete,update,create等等。也可以幫助從一個索引匯

談Elasticsearch下分散式儲存的資料分佈

對於一個分散式儲存系統來說，資料是分散儲存在多個節點上的。如何讓資料均衡的分佈在不同節點上，來保證其高可用性？所謂均衡，是指系統中每個節點的負載是均勻的，並且在發現有不均勻的情況或者有節點增加/刪除時，能及時進行調整，保持均勻狀態。本文將探討Elasticsearch的資料分佈方法，

Elasticsearch —— bulk批量導入數據

分段 meta eat 發現 lan 幫助分享 ble 統計 bulk批量導入批量導入可以合並多個操作，比如index,delete,update,create等等。也可以幫助從一個索引導入到另一個索引。語法大致如下； action_and_meta_data\n o

Elasticsearch的bulk批量操作和對映（mapping)

批量操作的格式：一般為兩行，delete除外在執行是前面加POST _bulk 只有delete是一行，其餘操作都是兩行對映：當我們建立索引的時候，可以預先定義欄位的型別以及相關屬性，也就是建表見型別。型別

ElasticSearch最佳入門實踐（二十六）bulk批量增刪改

1、bulk語法 POST /_bulk { “delete”: { “_index”: “test_index”, “_type”: “test_type”, “_id”: “3” }} { “create”: { “_index”: “test_index”, “_typ

python爬蟲系統(4.4-資料儲存到mongodb資料庫中)

一、如果你對mongodb不太熟悉的可以參考二、將爬取的資料直接存入到mongodb資料庫中 1、在python中使用pymongo連線mongodb pip3 install pymongo 三、依然將之前爬取農產品產品資訊的資料存入mongodb中

python爬蟲系列(4.3-資料儲存到mysql資料庫中)

一、如果你對mysql資料庫還不太熟悉二、基本操作 1、在python中使用pymysql連線mysql 2、安裝包 pip3 install pymysql 3、定義一個建立資料庫的方法(或者手動、SQL語句建立資料庫) # 定義一個建立資料庫的函

利用Python批量爬取XKCD動漫圖片，並批量儲存

import requests, os, bs4 url = 'https://xkcd.com' os.makedirs('xkcd',exist_ok = True) while not url.endswith('#'): # download the page

利用Python批量儲存51CTO部落格

一、背景最近在整理部落格，近在51CTO官網存在文章，想將之前寫的全部儲存到本地，發現用markdown寫的可以匯出，富文字的則不行，就想利用Python批量儲存自己的部落格到本地。二、程式碼 git地址 #!/bin/env python # -*- coding:utf-8 -*- # _au

python 批量修改/替換資料

在進行資料操作時，經常會根據條件批量的修改資料，如以下資料，按照日期的條件，將部門日期下的promotion改為1 tot_qty price date price_delta1 price_del

python 開啟和儲存資料檔案

開啟資料檔案 read_csv 從檔案，URL、檔案型物件中載入帶分隔符資料，預設分隔符為逗號，輸出為字典集 1：需要確定檔案的路徑，格式，資料分隔符，有無列標題，編碼格式，該方式只能適用於開啟資料檔

elasticsearch 筆記八：bulk 批量增刪該查

1、bulk語法 POST /_bulk { "delete": { "_index": "test_index", "_type": "test_type", "_id": "3" }} { "create": { "_index": "test_index", "_type":

Python對批量音訊檔案（wav）進行分段切割並儲存

#coding=gbk import os import wave import numpy as np import pylab as plt CutTimeDef = 1 #以1s截斷檔案 # CutFrameNum =0 path = r"..\test" file

python bulk批量儲存elasticsearch資料

相關推薦