使用 aspectj 對 spark 進行攔截

阿新 • • 發佈：2018-12-13

文章目錄

背景
如何使用

程式碼
配置

結語

背景

開源產品要想用的得心應手免不了要根據公司的業務/場景對其做一些改造，如果直接在原始碼的層面對其修改，當下可能用的很省心，但後期與社群程式碼的合併，版本的升級的時候就相當糟心了。

對於一個平臺來說，使用者對技術本身是不敏感的，所以我們需要增加一些限制來減少叢集的一些不可控情況，例如不斷的寫入新表/新資料卻不記得刪除，大量不按規範建立的表名等情況。與此同時應儘量讓技術對使用者透明，比如讓其無感知的訪問多種型別的資料庫。

下文以攔截 spark.sql()

方法為例，通過為 hive表的新增生命週期，自動切換 tidb 表，表許可權校驗等幾個小功能來說明。

如何使用

程式碼

SparkSqlAspect.scala
為了便於理解以下程式碼會進行一些刪減

import org.aspectj.lang.ProceedingJoinPoint
import org.aspectj.lang.annotation.{Around, Aspect}
import org.slf4j.LoggerFactory
import org.apache.spark.sql.{Dataset, Row, SparkSession, TiContext} 


import cn.tongdun.datacompute.parser._
import cn.tongdun.datacompute.parser.spark.SparkSQLHelper

@Aspect
class SparkSqlAspect {
  private val logger = LoggerFactory.getLogger(classOf[SparkSqlAspect])
  private var tiContext: TiContext = null
  
  @Around("execution(public org.apache.spark.sql.Dataset<org.apache.spark.sql.Row> org.apache.spark.sql.SparkSession.sql(java.lang.String)) && args(sqlRaw)" 
)
  def around(pjp: ProceedingJoinPoint,
             sqlRaw: String): Dataset[Row] = {
    //sparkSQLHelper 是我們基於 antlr4 增加了一些 sparksql 語法的支援，例如建表時需要指定 lifecycle 等
    val sql = SparkSQLHelper.format(sqlRaw)
    val spark = pjp.getThis.asInstanceOf[SparkSession] 
    var dataset: Dataset[Row] = spark.emptyDataFrame
    val statementData = SparkSQLHelper.getStatementData(sql)
    val statement = statementData.getStatement()
		
    //getType 方法用於獲取sql的型別
    statementData.getType match {
      case StatementType.CREATE_TABLE =>
	    createMethod()  
      case StatementType.CREATE_TABLE_AS_SELECT =>
		createAsSelectMethod()		 
      case StatementType.SELECT => 
		dataset = selectMethod(spark, inputSql, statement, pjp)
      case _ =>
        dataset = pjp.proceed(pjp.getArgs).asInstanceOf[Dataset[Row]]
    }
    dateset
  }

  // 建表必須帶有 lifecycle 欄位，並對錶名進行校驗，將相關資訊註冊到元資料系統等操作
  def createMethod(): Unit = {
	...
  }

  // 約定 create table as select 生成的表都為中間表，必須以 tdl_ 開頭，lifecycle 固定為7天  
  def createAsSelectMethod(): Unit = {
    ...
  }
  
  // select 對多個數據庫源進行判定以及對許可權進行校驗，下面以tidb為例	
  def selectMethod(spark: SparkSession,
                   inputSql: String,
                   statement: Statement,
                   pjp: ProceedingJoinPoint): Dataset[Row] = {
    val tableData = statement.asInstanceOf[TableData]
    //獲取所有需要訪問的源表
    tableData.getInputTables.toArray.foreach {
	  case t: TableSource =>    
		val databaseName = t.getDatabaseName
        val tableName = t.getTableName
        val fullTableName = databaseName + "." + tableName
        //所有tidb的庫都以tidb為字首
        if (t.getDatabaseName.startsWith("tidb")) {
          //對tidb表許可權進行校驗 
	      if(tableAuthCheck(...)){
	        //判斷tiContext是否初始化
	        if (tiContext == null) {
              tiContext = new TiContext(spark)
            }
            //對tidb表的表名進行替換，避免與現有的臨時表/中間表衝突
            val replacedTable = "tdl_" + databaseName + "_" + tableName
            //加入tidb表資料來源
            tiContext.tidbMapTable(databaseName, tableName)
            //註冊為臨時表
            tiContext.getDataFrame(databaseName, tableName).createOrReplaceTempView(replacedTable)
            //將sql語句中的表名進行替換
            sql = StringUtils.replace(sql, fullTableName, replacedTable)
	      } else {
		    throw new IllegalAccessError(fullTableName + "沒有訪問許可權")  
	      }
		}
	  case _ =>
    }
    pjp.proceed(Array(sql)).asInstanceOf[Dataset[Row]]
  }
}

配置

pom.xml

<dependency>
    <groupId>org.aspectj</groupId>
	    <artifactId>aspectjrt</artifactId>
	    <version>1.9.1</version>
    </dependency>

    <dependency>
        <groupId>org.aspectj</groupId>
        <artifactId>aspectjweaver</artifactId>
	    <version>1.9.1</version>
    </dependency>
	
	<!--公司內部版本，用於支援spark2.3-->	
    <dependency>
       <groupId>com.pingcap.tispark</groupId>
       <artifactId>tispark-core</artifactId>
       <version>1.1-SNAPSHOT</version>
       <scope>provided</scope>
    </dependency>

resources/META-INF/AspectSql.aj

<?xml version="1.0" encoding="UTF-8" ?>
<aspectj>
    <aspects>
        <aspect name="cn.tongdun.aspectj.SparkSqlAspect"/>
    </aspects>
    <weaver options="-Xset:weaveJavaxPackages=true"/>
</aspectj>

spark-defaults.conf

spark.driver.extraClassPath /path/to/spark-aspectj.jar
spark.driver.extraJavaOptions -javaagent:/home/admin/aspectjweaver-1.9.1.jar

結語

通過上述的操作，在使用者呼叫 spark.sql(...) 時將會觸發相應的方法。hdfs/rdd/sparkSession/etc. 操作同理可實現。

不同公司面臨的真實場景各有不同，因此並沒有過多的實現細節，僅給需要的同學提供一些思路。

使用 aspectj 對 spark 進行攔截

文章目錄背景如何使用程式碼配置結語背景開源產品要想用的得心應手免不了要根據公司的業務/場景對其做一些改造，如果直接在原始碼的層面對其修改，當下可能用的很省心，但後期與社群程式碼的

使用 Hibench 對 Spark 進行基準測試

文章目錄概述環境準備安裝配置執行配置檢視報告概述專案地址: Intel-hadoop/HiBench Hibench 是 Intel 開源的大資料

springboot 自定義interceptor 對請求進行攔截

自定義interceptor package com.zhk.demo.interceptor; import org.springframework.web.servlet.HandlerInterceptor; import org.springframework.web

Android 對EditText進行攔截操作

輸入修改姓名時候，只能輸入漢字，字母，數字，並且最長只能輸入16個字元，數字字母算一個字元，漢字算兩個字元重寫EditText對單次輸入的內容進行攔截判斷 public class LimitEditText extends EditText {

spring security2中對url進行攔截的配置

1、配置web.xml檔案：  <context-param> <param-name>contextConfigLocation</param-name>

使用Charles對iPhone進行Http(s)請求攔截(抓包)

ont row 參考 view 手機端 apt data clas 文件首先準備工具 1> Charles (下載對應操作系統的安裝包進行安裝，本文使用 macOS 進行演示) 2> iPhone (本文使用SE，系統版本：iOS 10) 開始

SpringMvc 攔截器對未登入系統的操作進行攔截處理

各類攔截器的傳統寫法案例： 1 在spring-mvc.xml 檔案中新增攔截器如下：  <mvc:interceptors> ... ...

配置過濾器對某個路徑下的資源不進行攔截

public class LoginFilter implements Filter{ private Logger logger = Logger.getLogger(LoginFilter.class); private String[] ignoreArr=nul

maven 對spark 原始碼進行編譯（基於Centos 7 ）

maven 對spark 原始碼進行編譯（基於Centos 7 ） 1 、寫在前面的話有些小夥伴可能會問：Spark官網不是已經提供了Spark針對不同版本的

Jersey實現對方法進行過濾攔截

在web程式開發過程中，通常我們會需要對我們的介面進行訪問控制，例如控制使用者的訪問許可權、記錄使用者的訪問日誌等，在我們使用Jersey進行Restful服務開發中，同樣會有類似需求，下面我們介紹下，使用Jersey框架，實現介面訪問的三種方式。一、使用註解

Struts2 攔截器中實現對資料進行資料庫操作

功能需求說明：用攔截器的方式，攔截以.action結尾的類，同時記錄訪問的action名稱、action的包路徑、action後面帶的引數、操作者的ID、操作者的姓名、等其他資料。吐槽點： 1.

第1章對執行在YARN上的Spark進行效能調優

1.1.1執行環境Jar包管理及和資料本地性原理在YARN上執行Spark需要在Spark-env.sh或環境變數中配置HADOOP_CONF_DIR或YARN_CONF_DIR目錄指向Hadoop的配置檔案。Spark-default.conf中配置Spark.YARN.j

Struts2對jsp頁面進行攔截

加粗顯示，以示尊重。最近需要對jsp進行許可權攔截的問題，但Struts2攔截器無法對Jsp進行攔截，如果非要攔截，可以採用都全部經過Action來訪問，但是我個人覺得過於繁瑣，轉載的這篇博主文章，我覺得是很不錯的選擇。這裡我補充說下，如果要

spark或sparksql對錶進行Join並將結果存為Avro格式

描述一下需求有個表的結構如下 Emp ( Eno CHAR(4)， Ename CHAR(8)， Esex CHAR(1) CHECK(Esex IN ('M','F'))， ED

Spark GraphX 對圖進行視覺化

Spark 和 GraphX 對並不提供對資料視覺化的支援, 它們所關注的是資料處理. 但是, 一圖勝千言, 尤其是在資料分析時. 接下來, 我們構建一個視覺化分析圖的 Spark 應用. 需要用到的第三方庫有: GraphStream: 用於畫出網路圖BreezeViz

實現Struts2中對未登入的jsp頁面進行攔截功能（採用的是Struts2中過濾器進行過濾攔截）

Struts2中攔截器大家都很經常使用，但是攔截器只能攔截action不能攔截jsp頁面。這個時候就有點尷尬了，按道理來說沒登入的使用者只能看login介面不能夠通過輸入URL進行介面跳轉，這顯然是不合理的。這裡介紹Struts2中Filter實現jsp頁面攔截的功能。（有

Android對View進行全域性攔截處理

前言當我們繼承AppCompatActivity時，會發現一些系統控制元件會被替換成v4包擴充套件過後的View，它是如何做到全域性攔截替換的呢,有時候我們也有一些需求，需要對某一型別的View進行統一操作。 LayoutInflater 原始碼分析

使用容器和Elasticsearch集群對Twitter進行監控

docker rancher 集群 twitter 監控介紹Elasticsearch是ELK（Elasticsearch/Logstash/Kibana）的基石。在這篇文章中，我們將使用Rancher Catalog來部署stack，並將它用於追蹤Twitter上的tag和brand。

安卓端通過http對Mysql進行增刪改查

name 交流 shm != 用戶習慣 cti -perm 得到各類it學習視頻，大家都可以看看哦！我自己本人都是通過這些來學習it只知識的！下面是視頻鏈接轉自：http://www.cnblogs.com/wangying222/p/5492935.html ht

sql語句對列進行操作

tmp from num table 數據 code pda odi com 1 create table test_1( 2 tname number(20), 3 tage varchar2(1024), 4 tmessage varchar(1024)

使用 aspectj 對 spark 進行攔截

文章目錄

背景

如何使用

程式碼

配置

結語

相關推薦