【夢溪筆談】6.spark-sql相關程式碼

阿新 • • 發佈：2020-11-12

import os
import sys
#import datetime
import pyspark.sql.functions as F
from pyspark.sql.types import *
from pyspark.sql import SparkSession

#不啟動BroadcastJoin 、conf spark.speculation=true
spark = SparkSession \
    .builder \
    .appName("app_test.py") \
    .enableHiveSupport() \
    .config("spark.dynamicAllocation.maxExecutors", "400") \
    .config("spark.sql.autoBroadcastJoinThreshold",-1) \
    .config("spark.yarn.executor.memoryOverhead", 3702) \
    .config("spark.sql.adaptive.enabled", "true") \
    .config("spark.sql.adaptive.repartition.enabled", "true") \
    .config("spark.log.level", "ERROR") \
    .config("spark.speculation", "true") \
    .config("spark.sql.hive.convertMetastoreOrc", "true")\
    .getOrCreate()
spark.sql("set hive.exec.dynamic.partition=true")
spark.sql("set hive.exec.orc.split.strategy=ETL")
spark.sql("set hive.exec.dynamic.partition.mode=nonstrict")

from datetime import datetime, timedelta
def get_date(dt,time_delta=0):
    try:
       result=dt+timedelta(days=-time_delta)
    except:
        try:
           dt = datetime.strptime(dt, "%Y-%m-%d")  # 字串轉化為date形式
        except:
           dt = datetime.strptime(dt, '%Y%m%d')  # 字串轉化為date形式
        result = dt + timedelta(days=-time_delta)
    return str(result.strftime('%Y-%m-%d'))

def insert_tab(df,tab,spark):
    col_target = spark.sql("""select * from {tab} limit 1""".format(tab=tab)).columns
    col=df.columns
    not_in_col=[i for i in col_target if i not in col]
    for i in not_in_col:
        df = df.withColumn(i, F.lit(None))
    df2=df.select(col_target)
    df2.repartition('dt','data_type').write.insertInto(tab, overwrite=True)

def search_dt(partitions_list,dt):
    '''
    如果想要取的分割槽dt在partition_list中，則返回dt，否則返回dt之前最近的一個分割槽
    :param partition_list: 分割槽List
    :param dt: 想要取的分割槽
    :return: 函式最終確定的分割槽dt,字串格式
    '''
    dt=get_date(dt,0)
    if 'ACTIVE' in partitions_list:
        partitions_list.remove('ACTIVE')
    if dt in partitions_list:
        return dt
    dt_date=datetime.strptime(dt, '%Y-%m-%d').date()
    partition_list_lag=[(datetime.strptime(p_dt, '%Y-%m-%d').date()-dt_date).days for p_dt in partitions_list]
    try:
        reuslt=max(list(filter(lambda x:x<0,partition_list_lag)))
    except:
        reuslt=min(list(filter(lambda x:x>0,partition_list_lag)))
    return datetime.strftime(dt_date+timedelta(reuslt),'%Y-%m-%d')

def get_nearest_dt(table_name,dt,spark):
    #檢查是否有dt分割槽,如果沒有，取最近分割槽
    partitions = spark.sql("show partitions %s"%table_name).collect()
    partitions_list = []
    for i in range(len(partitions)):
        dt_tmp = partitions[i]['partition']
        partitions_list.append(dt_tmp[3:])
    dt_result=search_dt(partitions_list,dt)
    return dt_result

【夢溪筆談】6.spark-sql相關程式碼

import os import sys #import datetime import pyspark.sql.functions as F from pyspark.sql.types import * from pyspark.sql import SparkSession

【夢溪筆談】4.leetCode筆記

【滑動視窗】通過兩個同向滑動的指標來控制視窗大小。1.首先左右指標都為0，然後開始滑動右指標2.把對應的值放到滑動視窗中，同時檢查視窗中的值是否符合要求3.當視窗中的值都符合要求時，開始滑動左指標參考連結：h

【夢溪筆談】7.TensorFlow學習筆記

#matmul:將矩陣 a 乘以矩陣 b,生成a * b #pow（x,y）=x^y #subtract：返回x-y 的元素 #multiply 對應元素相乘，不是矩陣相乘，而是相同維度的兩個向量（或者矩陣）對應的元素相乘，結果還是原向量的維度一致的向量

Spark3學習【基於Java】5. Spark-Sql聯表查詢JOIN

大資料場景下，聯表遠比微小型關係型資料庫中使用的頻繁。網上有句話：傳統資料庫單機模式做Join的場景畢竟有限，也建議儘量減少使用Join。

【第十四周】匯入hellodb.sql生成資料庫，查詢年齡大於25歲，且為男性的同學的名字和年齡等

【第十四周】匯入hellodb.sql生成資料庫 mysql -uroot -pubuntu < ~/data/hellodb.sqlMariaDB [(none)]> show databases;

【訊息佇列面試】6-10：Rebalance機制、副本同步機制、架構設計、zk的作用、kafka的高效能

六、簡述kafka的Rebalance【偏向實戰，有難度】 1、背景 kafka日誌：在訊息量大、高併發時，經常會出現rebalance中

【PHP資料結構】連結串列的相關邏輯操作

連結串列的操作相對順序表（陣列）來說就複雜了許多。因為 PHP 確實已經為我們解決了很多陣列操作上的問題，所以我們可以很方便的運算元組，也就不用為陣列定義很多的邏輯操作。比如在 C 中，陣列是有長度限制的，而

spark-sql 寫程式碼的三種方式

spark-sql寫程式碼的三種方式目錄 spark-sql寫程式碼的三種方式一、在idea裡面將程式碼編寫好打包上傳到叢集中執行----上線使用

【趙強老師】什麼是Spark SQL？

一、Spark SQL簡介 Spark SQL是Spark用來處理結構化資料的一個模組，它提供了一個程式設計抽象叫做DataFrame並且作為分散式SQL查詢引擎的作用。

【Spark】Day03：Spark SQL：DataFrame、DataSet、sql操作、專案實戰（區域熱門商品）

一、概述 1、介紹將Spark SQL轉換成RDD，然後提交到叢集執行，執行效率非常快提供了2個程式設計抽象，類似Spark Core中的RDD：DataFrame&DataSet

【Spark研究】用Apache Spark進行大資料處理第二部分：Spark SQL

在Apache Spark文章系列的前一篇文章中，我們學習了什麼是Apache Spark框架，以及如何用該框架幫助組織處理大資料處理分析的需求。

【重溫mysql】6、InnoDB 加鎖分析

InnoDB 為了保證併發能力，採取行級加鎖策略。為了實現事務的隔離級別，InnoDB 中又引入了各種不同的行級鎖機制。不同的加鎖順序、加鎖型別、鎖的多少以及影響範圍將直接影響到整個事務執行效率與執行時間直接影響 M

使用SQL語句去掉重複的記錄【兩種方法】

海量資料（百萬以上），其中有些全部欄位都相同，有些部分欄位相同，怎樣高效去除重複？

【HttpRunner v3.x】筆記—6. 測試用例-teststeps-RunRequest

之前我們瞭解了config裡的各項引數，今天來了解另一個重要部分——teststeps，在這之前，先看看測試用例的分層模型。

洛谷-P5709 【深基2.習6】Apples Prologue

洛谷-P5709 【深基2.習6】Apples Prologue 原題連結：https://www.luogu.com.cn/problem/P5709 題目描述

【平臺開發】— 6.從[登入]看前後端互動

上次瞭解到了後端程式碼的大概分層，作用都是幹嘛的。那今天就結合著前端，一起看下它們是怎麼互動的。

洛谷-P5731 【深基5.習6】蛇形方陣

洛谷-P5731 【深基5.習6】蛇形方陣原題連結：https://www.luogu.com.cn/problem/P5731 題目描述

Spark SQL(6) OptimizedPlan

Spark SQL(6) OptimizedPlan 在這一步spark sql主要應用一些規則，優化生成的Resolved Plan，這一步涉及到的有Optimizer。

【併發程式設計】6.執行緒控制工具類

1.Future、Callable、FutureTask 執行緒池提供的submit方法 <T> Future<T> submit(Callable<T> task); //Callablecall方法具有返回值，Future物件可以通過呼叫其get()方法來獲取任務的執行結果。

Spark(十四)【SparkSQL整合Hive】

目錄1.內嵌的HIVE2.整合外部的Hivespark-shellIdea開發中FAQ 1.內嵌的HIVE 如果使用 Spark 內嵌的 Hive, 則什麼都不用做, 直接使用即可.

【夢溪筆談】6.spark-sql相關程式碼

相關推薦