資料質量 — 使用amazon deequ作為spark etl資料質量檢測

阿新 • • 發佈：2022-03-25

目前，公司裡資料質量檢測是通過配置規則報警來實現的，對於有些表需要用shell指令碼來封裝hivesql來進行檢測，在時效性和準確上不能很好的滿足，故嘗試使用Deequ來做質量檢測工具。

一、官網示例

package org.shydow.deequ

import com.amazon.deequ.checks.CheckStatus
import com.amazon.deequ.constraints.ConstraintStatus
import com.amazon.deequ.{VerificationResult, VerificationSuite}
import org.apache.spark.SparkContext
 
import org.apache.spark.rdd.RDD
import org.apache.spark.sql.{DataFrame, SparkSession}

/**
 * @author shydow
 * @date 2022-03-25
 */


object DQService {
  def main(args: Array[String]): Unit = {
    val spark: SparkSession = SparkSession.builder()
      .appName("DQC")
      .master("local[*]")
      .getOrCreate()
    val sc: SparkContext  
= spark.sparkContext
    sc.setLogLevel("WARN")
    import spark.implicits._

    val source: RDD[Item] = sc.parallelize(Seq(
      Item(1, "Thingy A", "awesome thing.", "high", 0),
      Item(2, "Thingy B", "available at http://thingb.com", null, 0),
      Item(3, null, null, "low", 5),
      Item(4, "Thingy D", "checkout https://thingd.ca", "low", 10),
      Item( 
5, "Thingy E", null, "high", 12)))
    val sourceDF: DataFrame = spark.createDataFrame(source)
    sourceDF.printSchema()

    // 質量檢測
    val result: VerificationResult = DeequCheckRules.createRule(sourceDF)
    if (result.status == CheckStatus.Success) {
      println("The data passed the test, everything is fine!")
    } else {
      println("We found errors in the data:\n")

      val resultsForAllConstraints = result.checkResults
        .flatMap { case (_, checkResult) => checkResult.constraintResults }

      resultsForAllConstraints
        .filter {
          _.status != ConstraintStatus.Success
        }
        .foreach { result => println(s"${result.constraint}: ${result.message.get}") }
    }

    spark.close()
  }
}

package org.shydow.deequ

import com.amazon.deequ.{VerificationResult, VerificationSuite}
import com.amazon.deequ.checks.{Check, CheckLevel}
import org.apache.spark.sql.DataFrame

/**
 * @author shydow
 * @date 2022-03-25
 */

object DeequCheckRules {
  // 自定義規則1
  def createRule(df: DataFrame): VerificationResult = {
    VerificationSuite().onData(df)
      .addCheck(Check(CheckLevel.Error, "this a unit test")
        .hasSize(_ == 5) // 判斷資料量是否是5條
        .isComplete("id") // 判斷該列是否全部不為空
        .isUnique("id") // 判斷該欄位是否是唯一
        .isComplete("productName") // 判斷該欄位全部不為空
        .isContainedIn("priority", Array("high", "low")) // 該欄位僅僅包含這兩個欄位
        .isNonNegative("numViews") //該欄位不包含負數
        .containsURL("description", _ >= 0.5) // 包含url的記錄是否超過0.5
        .hasApproxQuantile("numViews", 0.5, _ <= 10)
      )
      .run()
  }
}

二、生產中配置的一些規則

def odsTableRule(df: DataFrame) = {
    VerificationSuite()
      .onData(df)
      .addCheck(
        Check(CheckLevel.Error, "base checks")
          .isComplete("primaryKey") // primaryKey即主要欄位不能為空
          .isUnique("uniqueKey") // unique即唯一主鍵
          .isContainedIn("priority", Array("high", "low")) // 判斷該欄位是否只存在列舉型別
          .isNonNegative("numViews") // 斷言該欄位非負數
          .satisfies(
            "abs(column1 - column2) <= 0.20 * column2",
            "value(column1) lies between value(column2)-20% and value(column2)+20%"
          )  // 自定義條件，判斷col1-col2絕對值在0.2 * col2間
      )
      .addCheck(
        Check(CheckLevel.Warning, "distribution checks")
          .containsURL("description", _ >= 0.5)  // 斷言有一半的值包含url
          .hasApproxQuantile("numViews", 0.5, _ <= 10))  // 斷言有一半的值不超過10
      .run()
  }

資料質量 — 使用amazon deequ作為spark etl資料質量檢測

Spark處理資料排序問題如何避免OOM

錯誤思想舉個列子，當我們想要比較一個型別為 RDD[(Long,(String,Int))] 的RDD，讓它先按Long分組，然後按int的值進行倒序排序，最容易想到的思維就是先分組，然後把Iterable 轉換為 list，然後sortby,但是這樣卻

spark | 手把手教你用spark進行資料預處理

本文始發於個人公眾號：TechFlow，原創不易，求個關注今天是spark專題的第七篇文章，我們一起看看spark的資料分析和處理。

資料湖應用解析：Spark on Elasticsearch一致性問題

摘要：髒資料對資料計算的正確性帶來了很嚴重的影響。因此，我們需要探索一種方法，能夠實現Spark寫入Elasticsearch資料的可靠性與正確性。

Spark專案實戰從0到1之（20）企業級資料倉庫構建（三）：資料採集模組環境搭建（1）

一、資料採集模組 Linux基本配置【1】Linux環境搭建 1).修改MAC地址方法1：vim /etc/udev/rules.d/70-persistent-net.rules

2020阿里最新大資料面試題集合：Spark+Zookeeper+Hadoop+HBase

Hadoop面試題講述HDFS上傳檔案和讀檔案的流程？HDFS在上傳檔案的時候，如果其中一個塊突然損壞了怎麼辦？NameNode的作用？4.NameNode在啟動的時候會做哪些操作？NameNode的HA？Hadoop的作業提交流程？Hado

Spark處理資料檔案轉LIBSVM格式解決方法

SparkMlLib中處理的檔案是LIBSVM格式，因此在處理前需要先轉換資料檔案的格式 1. 首先獲得FormatDataLibsvm.xls檔案, 檔案連結地址為：

python 按行取excle資料作為介面請求資料

1、excle檔案內容示例：獲取excle資料來源碼： 1 import pandas as pd 2 3 def get_all_excle_data(excle_file, sheet_name, row):

使用Apache Hudi + Amazon S3 + Amazon EMR + AWS DMS構建資料湖

1. 引入資料湖使組織能夠在更短的時間內利用多個源的資料，而不同角色使用者可以以不同的方式協作和分析資料，從而實現更好、更快的決策。Amazon Simple Storage Service（amazon S3）是針對結構化和非結構化資料的

使用Canal作為mysql的資料同步工具

一、Canal介紹 1、應用場景在前面的統計分析功能中，我們採取了服務呼叫獲取統計資料，這樣耦合度高，效率相對較低，目前我採取另一種實現方式，通過實時同步資料庫表的方式實現，例如我們要統計每天註冊與登入人

spark大資料淘寶日誌資料分析demo

package com.imooc.web; import com.imooc.dao.TopNDAO; import com.imooc.domain.TopN; import net.sf.json.JSONArray;

spark行列資料轉換

spark 1X1維度的資料轉換成nX1維度 # orderid需要進行拆分欄位 select orderid,orderids from table_names

大資料實踐（十） Spark多種開發語言、與Hive整合

技術標籤：Hadoop Spark 可以使用scala、Java、Sql、Python、R語言進行開發。在bin目錄下也提供了spark-shell、spark-sql、sparkR、pyspark等互動方式。

python訪問elasticsearch_關於spark dataframe資料匯入elasticsearch

技術標籤：python訪問elasticsearch 首先elasticsearch是什麼？ elasticsearch 的功能如其名字，是彈性搜尋資料庫。簡單來說就是一個搜尋引擎，你可以把它理解為一個小百度。spark是大資料框架，或者說工具。當

大資料學習（26）—— Spark之RDD

做大資料一定要有一個概念，需要處理的資料量非常大，少則幾十T，多則上百P，全部放記憶體是不可能的，會OOM，必須要用迭代器一條一條處理。

Spark 大資料處理最佳實踐

開源大資料社群 & 阿里雲 EMR 系列直播第十一期主題：Spark 大資料處理最佳實踐

徒手打造基於Spark的資料工廠（Data Factory）：從設計到實現

在大資料處理和人工智慧時代，資料工廠（Data Factory）無疑是一個非常重要的大資料處理平臺。市面上也有成熟的相關產品，比如Azure Data Factory，不僅功能強大，而且依託微軟的雲端計算平臺Azure，為大資料處理提

RestCloud ETL資料交換平臺，自帶監控實時掌控資料

RestCloud ETL資料交換平臺是基於微服務架構完全自主研發和創新的新一代資料整合平臺，通過視覺化的拖、拉、拽即可完成資料整合流程的構建並實現資料抽取、轉換、清洗、脫敏、載入等功能，從架構、易用性、傳輸效能

電商專案實戰Hive實現-將ETL資料載入到Hive表中

1、建立資料夾，放入原始資料 [hadoop@hadoop000 ~]$ hadoop fs -mkdir -p /project/input/raw [hadoop@hadoop000 data]$ hadoop fs -put trackinfo_20130721.data /project/input/raw/

虛擬機器配置Hadoop 叢集教程（參考Hadoop+Spark 大資料巨量分析與機器學習）

配置完偽分散式虛擬機器後，可以繼續配置hadoop叢集。配置偽分散式hadoop可以參考：http://dblab.xmu.edu.cn/blog/2441-2/ 教程裡也有配置叢集，但是是用物理機配置的，我們這裡還是選擇用虛擬機器配置。

資料質量 — 使用amazon deequ作為spark etl資料質量檢測

相關推薦