Spark讀取分析在ES中儲存的SQL

阿新 • • 發佈：2020-12-22

使用者通過elasticsearch-sql對儲存在elasticsearch中的資料進行查詢，假設事先會把查詢語句儲存在elasticsearch中，那麼如何對這些sql語句中涉及到的表進行統計？

Spark讀取Elasticsearch

import org.elasticsearch.spark._
val esOptions = Map("es.nodes"->"localhost", "es.port"->"9200","es.mapping.date.rich"->"false")
val esRDD = spark.sparkContext.esRDD("collectorapimetricslog2-2020.12/logs", esOptions)
esRDD.take(20).foreach(println)
val esJsonRDD = esRDD.map(x=>{
  import org.json4s._
  import org.json4s.JsonDSL._
  import org.json4s.jackson.JsonMethods._
  import org.json4s.jackson.Serialization
  import org.json4s.DefaultFormats
  implicit val json4sFormats = DefaultFormats
  val origM = x._2
  Serialization.writePretty(origM)
})
val esDF = spark.read.json(esRDD)

用RDD方式把query語句從es中讀取出來，轉換為json串之後，再轉換為DataFrame。

那為什麼不直接採用Elasticsearch-Hadoop中提供的Dataframe介面方式，原因在於使用DataFrame方式直接讀取，會有多種格式不匹配或出錯的問題出現，elasticsearch-hadoop在相容性方面，還有許多細節考慮不周。

JSqlParser

使用JSqlParser把query語句中涉及到的表找出來

第一步，載入jsqlparser庫

bin/spark-shell --packages "com.github.jsqlparser:jsqlparser:3.1"

第二步，分析使用的程式碼，先去除識別上錯誤，然後parse

import net.sf.jsqlparser.util.TablesNamesFinder._
import net.sf.jsqlparser.util.TablesNamesFinder
import net.sf.jsqlparser.parser.CCJSqlParserUtil
import net.sf.jsqlparser.statement.select._
val stmt = CCJSqlParserUtil.parse("select * from tabl1 a join tab2 b on a.id=b.id")
val sel = stmt.asInstanceOf[Select]
val tblFinder = new TablesNamesFinder()
tblFinder.getTableList(sel)

val esQueryContentDF = esDF.filter("engine=='es'").select("queryContent")
val parsedQueryDF = esQueryContentDF.map(r => {
    import net.sf.jsqlparser.util.TablesNamesFinder._
    import net.sf.jsqlparser.util.TablesNamesFinder
    import net.sf.jsqlparser.parser.CCJSqlParserUtil
    import net.sf.jsqlparser.statement.select._
    import spark.implicits._
    import scala.collection.JavaConverters._
    var targetTable:String = "exception"
    val originalQuery = r.getString(0)
    try {
        val sQuery = r.getString(0)
        val dateHistoPattern = "date_histogram(?:.*[)])".r
        val sQuery2 = dateHistoPattern.replaceAllIn(sQuery,"date_histogram()")
        val qPattern = raw"(\w+-[\d.]+)".r
        val queryStr = qPattern.replaceAllIn(sQuery2,"`$1`")
        val stmt = CCJSqlParserUtil.parse(queryStr)
        val sel = stmt.asInstanceOf[Select]
        val tblNamesFinder = new TablesNamesFinder()
        val tblLst = tblNamesFinder.getTableList(sel)
        targetTable = tblLst.asScala.mkString(",")
    }catch {
        case ex: Exception => {
            targetTable = "exception: " + originalQuery
        }
    }
    targetTable
})

parsedQueryDF.filter(" value not like 'exception%'").createOrReplaceTempView("parsed_query")
spark.sql("select split(replace(value,'`',''),'-')[0] from parsed_query").distinct.collect.foreach(println)

Spark讀取分析在ES中儲存的SQL

Sql中儲存過程的定義、修改和刪除操作

1.儲存過程的分類系統儲存過程本地儲存過程（使用者自定義）臨時儲存過程（區域性【#】、全域性【##】臨時儲存過程）

tensorflow實現讀取模型中儲存的值 tf.train.NewCheckpointReader

使用tf.trian.NewCheckpointReader(model_dir) 一個標準的模型檔案有一下檔案,model_dir就是MyModel(沒有後綴)

Python 讀取word中表格資料、讀取word修改並儲存、替換word中詞彙、讀取word中每段內容，讀取一段話中相同樣式內容，理解Document中run

1 from docx import Document 2 path = r\'D:\\pywork\\12\'# word資訊表所在資料夾 3 w = Document(path + \'/\' + \'word資訊表.docx\') #讀取word

Spark專案實戰從0到1之（1）Spark讀取和儲存HDFS上的資料

本篇來介紹一下通過Spark來讀取和HDFS上的資料，主要包含四方面的內容：將RDD寫入HDFS、讀取HDFS上的檔案、將HDFS上的檔案新增到Driver、判斷HDFS上檔案路徑是否存在。

Spark專案實戰從0到1之（6）Spark 讀取mysql中的資料

Spark（直接讀取mysql中的資料）兩種方法的目的：進行mysql資料的資料清洗方法一：

Android中從assets資源中讀取圖片檔案並儲存到內部儲存器並載入顯示在ImageView中

場景 Android系統為每個新設計的程式提供了/assets目錄，這個目錄儲存的檔案可以打包在程式裡。/res和/assets的不同點是，android不為/assets下的檔案生成ID。如果使用/assets下的檔案，需要指定檔案的路徑和檔名。a

我把excel檔案讀取為df，用SQL查詢、分析，它不香嗎？

本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,如有問題請及時聯絡我們以作處理。

ES中對應的SQL的count(distinct 列名) java實現

一、需求：select count(distinct city_name) from tableA; 二、程式碼：用的是cardinality基數統計，高版本API

spark將hive表結果儲存至mysql表中BigDecimal精度問題解決。

技術標籤：Spark 問題描述： hive表結果dataFrame 將row轉case時精度轉換時報錯： Cannot up cast xxx from decimal(29,2) to decimal(38,18) as it may truncate

logstash中將kafka資料直接儲存到es中

下載建議到官網下載最新版https://www.elastic.co/cn/downloads/logstash本文使用logstash7.0.0https://artifacts.elastic.co/downloads/logstash/logstash-7.0.0.tar.gz

使用filebeat解析nginx的json格式日誌，並且儲存原始message欄位的值,輸出到es中並通過grafana圖形化顯示

1.nginx日誌調成json樣式 log_format json \'{\"@timestamp\":\"$time_iso8601\",\' \'\"server_addr\":\"$server_addr\",\'

深入分析java中的System類

System是一個類，這個System類主要是一些與系統相關的屬性和方法的集合，而且其內部的方法全部是靜態的，所以我們直接使用System直接呼叫就好，比如我們常用的一個System.out.print。這篇文章我們就來分析一下System

資料庫中的sql完整性約束語句解析

完整性約束　　完整性約束是為了表的資料的正確性！如果資料不正確，那麼一開始就不能新增到表中。

往MySQL中儲存圖片的方法

1 介紹在設計到資料庫的開發中，難免要將圖片或音訊檔案插入到資料庫中的情況。一般來說，我們可以同過插入圖片檔案相應的儲存位置，而不是檔案本身，來避免直接向資料庫裡插入的麻煩。但有些時候，向MySQL中插入圖

SQL Server中T-SQL 資料型別轉換詳解

常用的轉換函式是 cast 和 convert，用於把表示式得出的值的型別轉換成另一個數據型別，如果轉換失敗，該函式丟擲錯誤，導致整個事務回滾。在SQL Server 2012版本中，新增兩個容錯的轉換函式：try_cast 和 try_conve

oracle中儲存函式與儲存過程的區別介紹

在oracle中，函式和儲存過程是經常使用到的，他們的語法中有很多相似的地方，可是也有它們的不同之處，這段時間剛學完函式與儲存過程，來給自己做一個總結：

解析MySQL中儲存時間日期型別的選擇問題

一般應用中，我們用timestamp,datetime,int型別來儲存時間格式： int（對應javaBean中的Integer或int）

Tensorflow讀取並輸出已儲存模型的權重數值方式

這篇文章是為了對網路模型的權重輸出，可以用來轉換成其他框架的模型。 import tensorflow as tf

Mybatis中使用SQL語句插入資料全為0

<insert id=\"insertUser\" parameterType=\"com.offcn.pojo.User\" >

Spark讀取分析在ES中儲存的SQL

Spark讀取Elasticsearch

JSqlParser

相關推薦