elasticsearch+logstash之間傳輸效率以及es-sql查詢效率簡單測試

阿新 • • 發佈：2019-01-11

對於logstash解析大批量資料並傳輸到elasticsearch中的過程簡單進行一些資料的測試，條件4G記憶體，logstash中配置index.refresh_interval=5s，（這個資料是es索引重新整理速率，就是資料傳輸到es中，es不會實時展示，延遲五秒，一般來說es配置1s），index.refresh_interval的增加可以較大提高插入資料的效率，特別的，可以將其改為-1，等到大批量資料匯入完成後，再改回去

這裡有幾個優化logstash、elasticsearch的部落格，連線掛在最後啦。

標準方法：

input {
    generator {
        count => 10000000
        message => '{"key1":"value1","key2":[1,2],"key3":{"subkey1":"subvalue1"}}'
        codec => json
    }
}

inputs/generator 是無中生有，output/null 則是鋸嘴葫蘆。事件流轉到這裡直接就略過，什麼操作都不做。相當於只測試 Logstash 的 pipe 和 filter 效率。

$ time ./bin/logstash -f generator_null.conf

output {
    stdout {
        codec => dots
    }
}

下面就要介紹 pv 命令了。這個命令的作用，就是作實時的標準輸入、標準輸出監控。我們這裡就用它來監控標準輸出：

$ ./bin/logstash -f generator_dots.conf | pv -abt > /dev/null

可以很明顯的看到在前幾秒中，速度是 0 B/s，因為 JVM 還沒啟動起來呢。開始執行的時候，速度依然不快。慢慢增長到比較穩定的狀態，這時候的才是你需要的資料。

但是在Centos上面過 yum 安裝的 pv 命令，版本較低，可能還不支援 -a 引數（我用的centos7，已經完全沒有pv命令了）

我的實際測試：

測試elastic的流程：複製檔案到指定位置，logstahs先啟動後會不斷檢測並傳輸到es

最終測試結果:
一份168條文件，2mb，複製50次
最終是8400份資料，沒有錯誤
9:25 -- 9：25 200條/s(左右？) 一條日誌36000字元
order by log_json_content.trace.linenumber 1s不到，很快
group by linenumber 0,50,100,150 1s不到，很快
分詞器全文檢索(en?) 1s不到，很快 type=matchQuery('ERRor') （'error'） 1s不到，很快

一份168條文件，2mb，複製100次
最終是16800份資料，沒有錯誤
10:27 -- 10：28 1分10s 240條/s(可能sql不斷查詢還耽誤了點時間) 一條日誌36000字元
order by log_json_content.trace.linenumber 1s不到，很快
group by linenumber 0,50,100,150 1s不到，很快
type=matchQuery('ERRor') （'error'） 1s不到，很快

附上覆制系統自帶的日誌資料到指定位置的shell程式碼，很簡單（大神見笑）

#!/bin/bash   
file_in_Name="/home/cuixuange/Public/elk/syslog"  
cd /home/cuixuange/Public/elk/test_log

for i in $(seq 1 50)
do
    name=$(printf shell_%02d.log $i)
    touch  $name

    while read line  
    do  
        echo $line >>$name
    done < $file_in_Name 

    chmod -R 777 /home/cuixuange/Public/elk/test_log/$name
    sleep 0.1s

done

其中cd 使用注意下；後面我是為了模範真實情況使用逐條讀取複製再寫入的方式，也可以直接用cp cat 之類的

注意：ubuntu日誌資料中的日期空格應該是tab隔開的，因為同樣的資料在centos系統中發現長度就不一樣，會使得logstash中的即將使用的conf檔案中grok解析會出現問題（所以要注意到統一的問題，空格是空格，tab是tab）

下面把；logstash解析ubuntu syslog 的conf檔案放上來吧

input { 
  file{
    path => ["/home/cuixuange/Public/elk/test_log/*.log"]
    start_position=>"beginning"

   #  discover_interval => 15
   #  stat_interval => 1
   #  sincedb_write_interval => 15
   } 
}

filter{
  grok{
    match=>{ "message" => "(?m)%{SYSLOGTIMESTAMP:timestamp} %{SYSLOGHOST:syslog_hostname} %{DATA:syslog_program}(?:\[%{POSINT:syslog_pid}\])?: %{GREEDYDATA:syslog_message}" 
           }
  }

  date {
    match => [ "timestamp", "MMM  d HH:mm:ss", "MMM dd HH:mm:ss"  ]
   # locale => "en"
   # timezone=>"+00:00"
    remove_field => [ "timestamp"]
   }


}

output {
     elasticsearch {
         host => "192.168.88.130"
     #    index => "logstash-shell-%{+2016.MMM.dd}"   #logstash-* to find
    #    index => "logstash-shell"
     #    protocol => transport
         workers =>5
         template_overwrite =>true
  }
}

elasticsearch-sql外掛就不多說了，支援各種查詢方法，可以到github上面去看一下，有很多簡單例子，特別是其中的全文分詞檢索的支援，很棒，一般中文的話考慮ik分詞器

還有一開始說的es，logstash的優化問題：

elasticsearch+logstash之間傳輸效率以及es-sql查詢效率簡單測試

elasticsearch+logstash之間傳輸效率以及es-sql查詢效率簡單測試

mysql傳入一個時間範圍查詢每一天的彙總資料以及es-sql的寫法

提高sql查詢效率

轉：關於SQL查詢效率優化

資料庫SQL查詢效率in、exists、left join on、right join on 適用場景與比較

《提高SQL查詢效率的30種方法》

Oracle提高SQL查詢效率where語句條件的先後次序

SQL查詢效率提高方法

SQL 查詢效率

要提高SQL查詢效率where語句條件的先後次序應如何寫

ELK （ElasticSearch + Logstash + Kibaba + Marvel）系統的搭建學習與簡單使用

如何在 SQL Server 2005 實例之間傳輸登錄和密碼

SQL Union和SQL Union All兩者用法區別效率以及與order by 和 group by配合問題

TCP和UDP的傳輸過程以及二者之間的區別

linux下用scp命令在兩個服務器之間傳輸文件，利用php_scp函數進行文件傳輸

基於ELK5.1(ElasticSearch, Logstash, Kibana)的一次整合測試

（高版本）ELK（Elasticsearch + Logstash + Kibana）服務服務搭建

PHP:測試SQL註入以及防止SQL註入

【轉載】xShell5 利用 sftp 在本地和服務器之間傳輸文件

javascript中數組與字符串之間的轉換以及字符串的替換

elasticsearch+logstash之間傳輸效率以及es-sql查詢效率簡單測試

相關推薦