Spark 新增複用JDBC Schema功能

阿新 • • 發佈：2018-11-22

1) 修改原因

使用者需要閱讀大量相同的資料庫表，比如相同schema的表有1000張（比如對mysql進行分表分庫）需要全讀，每次建立dataframe的時候需要通過jdbcrelation去查詢每一張表的schema，需要消耗了大量時間。本文對提出一種修改辦法，如果使用者知道表的sechema相同，可以使用sechema複用功能。

2) 程式碼流程

val df = sqlContext.read().format("jdbc").options(dfOptions).load();

->resolved= ResolvedDataSource(

sqlContext,

userSpecifiedSchema =userSpecifiedSchema,

partitionColumns = Array.empty[String],

provider = source,

options = extraOptions.toMap) //解析資料來源，獲取jdbc、parquet、josn的schema引數

->dataSource.createRelation(sqlContext,new CaseInsensitiveMap(options)) //傳入options

->JDBCRelation(url, table, parts, properties)(sqlContext) //獲取jdbc的relation

->override val schema= JDBCRDD.resolveTable(url, table, properties) //獲取schema

->conn.prepareStatement(s"SELECT * FROM $table WHERE1=0").executeQuery() //直接讀取database，需要優化

3) 修改方法

在使用者知道schema的情況下，沒有必要重複獲取schema；

使用者定義是否需要重複使用schema，修改程式碼流程最小；

修改方法：

a) 使用者通過Options傳入需要複用schema的開關：

dfOptions.put("jdbcschemakey","sparkourtest");

b) 建立一個hashtable，儲存已經獲取的shema

val schemaHashTable= newjava.util.HashMap[String,StructType]()

c) schema獲取流程：

4) 修改程式碼

29a30

> import org.apache.spark.Logging

40c41

< private[sql] object JDBCRelation {

---

> private[sql] object JDBCRelation{

48a50,55

> // add by Ricky for get same table schema

> val schemaHashTable= new java.util.HashMap[String,StructType]()

117c124

< private[sql] case class JDBCRelation(

---

> private[sql] case class JDBCRelation (

124c131

< with InsertableRelation {

---

> with InsertableRelation with Logging{

128c135,160

< override val schema: StructType = JDBCRDD.resolveTable(url, table, properties)

---

> // add by Ricky for get same table schema

> def getSchema():StructType={

> //val schemaKey = properties.getProperty("jdbcSchemaKey")

> val schemaKey = properties.getProperty("jdbcschemakey")

> if (schemaKey != null) {

> val schemaStored = JDBCRelation.schemaHashTable.get(schemaKey)

> if (schemaStored != null) {

> schemaStored

> } else {

> val schemaStored = JDBCRDD.resolveTable(url, table, properties)

> logInfo("schemaKey configed,schemaHashTable empty,now put "+schemaKey.toString)

> JDBCRelation.schemaHashTable.put(schemaKey, schemaStored)

> schemaStored

> }

> else

> {

> JDBCRDD.resolveTable(url, table, properties)

> }

> override val schema: StructType = getSchema()

> // end by Ricky

> // override val schema: StructType = JDBCRDD.resolveTable(url, table, properties)

Spark 新增複用JDBC Schema功能

1) 修改原因使用者需要閱讀大量相同的資料庫表，比如相同schema的表有1000張（比如對mysql進行分表分庫）需要全讀，每次建立dataframe的時候需要通過jdbcrelation去查詢每一張表的schema，需要消耗了大量時間。本文對

lightswitch datagrid 動態新增複選框的功能。

lightswitch中非自定義datagrid 使用注入的方式新增複選框，以便使用者可以進行多項選擇，using Microsoft.LightSwitch; using Microsoft.LightSwitch.Client; using Microsoft.Light

Spark優化(二)：複用RDD

儘可能複用同一個RDD 除了要避免在開發過程中對一份完全相同的資料建立多個RDD之外，在對不同的資料執行運算元操作時還要儘可能地複用一個RDD。比如說，有一個RDD的資料格式是key-value型別的，另一個是單value型別的，這兩個RDD的value資料是完全一樣的，

ESP8266 引腳複用功能選擇

pinMode(), digitalRead(), digitalWrite(), analogWrite() work as usual. Pin numbers correspond directly to the esp8266 GPIO pin numbers. To

STM32(9) GPIO口複用功能實現（正點原子） QQ群860099671

一個GPIO口可以複用成內部外設的功能引腳，這裡我們利用PA9\PA10設定為UART1來舉例。 IO口對應的複用功能需要查表來確定。這個表在晶片手冊下面這個圖講解了GPIO口的複用原理上圖右邊左圖是複用器（AFRL(31:0)、AFRH(31:0)），要

STM32的GPIO的複用功能和重對映功能

1、複用功能：內建外設是與I/O口共用引出管腳（不同的功能對應同一管腳） STM32 所有內建外設的外部引腳都是與標準GPIO引腳複用的，如果有多個複用功能模組對應同一個引腳，只能使能其中之一，其它模組保持非使能狀態。 2、重對映功能：複用功能的引出腳可以通過重對映，

華大微控制器HC32L110 HC32F003 HC32F005特殊埠應用注意事項三（SWD除錯程式設計埠複用為 I/O功能）

本文旨在拋磚引玉，其餘具體使用歡迎加Q：3230875137或加群164973950交流。 GPIO是通用輸入輸出模組，MCU可將一個 IO設為模擬模式，作為 ADC輸入；設為數字輸入輸出，或是外設埠，供特定外設使用。使用埠功能前，需要先把 GPIO模組時鐘控制功能開啟

STM32的複用時鐘的開啟和重對映功能

IO口的複用最近在學習STM32，在BZ上一篇關於的串列埠通訊文章裡有這麼一段程式碼： RCC_APB2PeriphClockCmd(RCC_APB2Periph_GPIOD | RCC_APB2Periph_AFIO,ENABLE); 當初是參考開發的例子寫的，一直

使用html-loader實現頁面公共部分複用的功能

專案有十幾個頁面,頂部導航欄是相同的,頁面一多,修改起來就很麻煩,因此,需要使用類似於php裡面include的功能,實現複用,但是專案沒有後臺,是靜態頁面,因此使用了webpack裡面的依賴. webpack裡面有個html-loader有這樣的功能

STM32-如何使用引腳複用功能輸出PWM

#define LED0_PWM_VAL TIM3->CCR2 //比較暫存器（TIM3通道2），可以調節PWM佔空比， int main(void) { u16 led0pwmval=0;u8 dir=1; Stm32_Clock_Init(9); //系統時

STM32F4XX IO口時鐘複用功能

基於STM32F412，在PC9上輸出System Clock 。同理，也可以在PA8上輸出其他的時鐘功能。 GPIO_InitTypeDef GPIO_InitStructure; GPIO_InitStructure.GPIO_Pin = GPIO_

socket端新增地址複用

傳智掃地僧課程學習筆記。實驗1，執行之前的伺服器程式後，再執行一個，會提示: Address already in use，意即埠被佔用，這個沒什麼好說的，實驗2，執行伺服器程式，執行客戶端程式，然後結束伺服器程式，注意了啊，這時候你再開啟伺服器程式，

Chrome OS 檔案管理器功能變化，又是為了複用生態？

作為一個主要執行 Web 應用的作業系統，谷歌 Chrome OS 更加關注於其線上功能，本地功能有時會顯得很讓人無語，比如它的檔案管理。實際上 Chrome OS 有一個基本的檔案管理器，但是它的功能很簡單，使用者只能管理下載的檔案，並且如果裝置可用空間不夠了，那麼系

RecyclerView詳解（基本使用+解決複用+新增HEAD和FOOT+上拉載入更多+下拉重新整理）以及ExpandableListView的簡單使用

一、RecyclerView的簡單使用先看效果圖程式碼實現1.引入recyclerview包implementation 'com.android.support:design:27.1.0' 2.佈局中新增RecyclerView<?xml version="1.0"

為DataGridView 新增複選框，實現全選功能

1、指定DataGridView的第一列為DataGridViewCheckBoxColumn 2、為第一列的標題欄新增一個CheckBox,假設為HeaderCheckBox同時為HeaderCheckBox定義好 MouseClick 和 KeyUp 事件priva

STM32 I/O複用功能時鐘配置

RCC_APB2Periph_AFIO--複用IO時鐘的使用為了優化64腳或100 腳封裝的外設數目，可以把一些複用功能重新對映到其他引腳上。設定複用重對映和除錯I/O 配置暫存器(AFIO_MAPR) 實現引腳的重新對映。這時，複用功能不再對映到它們的原始

在ListView中動態新增EditText並對其中的資料進行儲存和由於複用引起的Editext中的內容顯示異常的解決方案

public class AddAdapter extends BaseAdapter { private Context context; //需要增加的條目用一個Map儲存 private Map edItem; //記錄增加的條目數，作為下標給deItem賦值，可以不要

arm gpio管腳複用功能配置

gpio管腳除了輸入、輸出，還有其他複用功能（如作為nandflash、i2c、spi、lcd....），具體配置如下：1. gpio管腳功能配置p2732. 管腳輸入、輸出配置3. 管腳資料輸入、輸出4. 管腳中斷配置

【STM32】STM32埠複用和重對映（AFIO輔助功能時鐘）

STM32F1xx官方資料：《STM32中文參考手冊V10》-第8章通用和複用功能IO(GPIO和AFIO)埠複用功能埠複用的定義STM32有許多的內建外設（如串列埠、ADC、DCA等等），這些外設的外部引腳都是和GPIO複用的。也就是說，一個GPIO如果可以複用為內建外設的

Oracle DB , 計算各個用戶/schema 的磁盤占用空間

def term ner href pen database col table scott http://www.dba-oracle.com/t_find_size_schema.htm Question: How do I find the size of a s

Spark 新增複用JDBC Schema功能

1) 修改原因

2) 程式碼流程

3) 修改方法

4) 修改程式碼

相關推薦