Spark操作資料庫API

阿新 • • 發佈：2018-12-10

寫入Mysql資料庫

import java.sql.{Connection, Date, DriverManager, PreparedStatement}
import org.apache.spark.{SparkConf, SparkContext}

object IPLocation {

  val data2MySQL = (iterator: Iterator[(String, Int)] )=> {

    var conn: Connection = null
    var ps: PreparedStatement = null
    val sql = " INSERT INTO location_info (location, counts, accesse_data) VALUE (?, ?, ?)"
    try{
      conn = DriverManager.getConnection(" jdbc:mysql://localhost:3306/home/hadoop", "hadoop", "000000fzx")
      iterator.foreach(line => {
        ps = conn.prepareStatement(sql)
        ps.setString(1, line._1)
        ps.setInt(2, line._2)
        ps.setDate(3, new Date(System.currentTimeMillis()))
        ps.executeLargeUpdate()
      })
    } catch {
      case e: Exception => println(" Mysql Exception")
    } finally {
      if (ps != null)
        ps.close()
      if (conn != null)
        conn.close()
    }
  }

  // IP--> Long 10
  def  ip2Long(ip: String): Long = {
    val fragments = ip.split("[.]")
    var ipNum = 0L
    for (i<-0 until fragments.length) {
      ipNum = fragments(i).toLong | ipNum << 8L
    }
    ipNum
  }

  // BinarySearch
  def binarySearch(lines:Array[(String, String, String)], ip:Long) : Int = {

    var low = 0
    var high = lines.length -1
    while (low<=high){
      val middle = (low + high) / 2
      if ((ip >= lines(middle)._1.toLong) && (ip <= lines(middle)._2.toLong))
        return middle
      if (ip < lines(middle)._1.toLong)
        high = middle - 1
      else {
        low = middle + 1
      }
    }
    -1
  }

  def main(args: Array[String]): Unit = {

    val conf = new SparkConf().setAppName("IPLocation").setMaster()
    val sc = new SparkContext(conf)
    val ipRulesRdd = sc.textFile("   ").map( line => {

      val fields = line.split("\\|")
      val start_num = fields(2)
      val end_num = fields(3)
      val province = fields(6)
      (start_num, end_num, province)
    })
    // ip-rules
    val ipRulesArray = ipRulesRdd.collect()
    // broadcast-rules
    val ipRulesBroadcast = sc.broadcast(ipRulesArray)
    // data
    val ipsRDD = sc.textFile("   ").map( line => {
      val fields  = line.split("\\|")
      fields(1)
    })
    // result
    val result = ipsRDD.map( ip => {
      val ipNum = ip2Long(ip)
      val index = binarySearch(ipRulesBroadcast.value, ipNum)
      val info = ipRulesBroadcast.value(index)
      info
    }).map( t => (t._3, 1)).reduceByKey(_+_)

    result.foreachPartition(data2MySQL)
    println(result.collect().toBuffer)
    sc.stop()
  }
}

讀取Mysql資料庫的內容

import java.sql.DriverManager
import org.apache.spark.rdd.JdbcRDD
import org.apache.spark.{SparkConf, SparkContext}

object JdbcRddDemo {

  def main(args: Array[String]): Unit = {

    val conf = new SparkConf().setAppName("JdbcRddDemo").setMaster("local[2]")
    val sc = new SparkContext(conf)
    val connection =() => {
      Class.forName("com.mysql.jdbc.Driver").newInstance()
      DriverManager.getConnection("jdbc:mysql://localhost:3306/home/hadoop", "hadoop", "000000fzx")
    }
    val jdbcRdd = new JdbcRDD (
      sc,
      connection,
      "SELECT * FROM table_1 where id>= ? AND id <= ?",
      1, 4, 2,
      rs => {
        val id = rs.getInt(1)
        val code = rs.getString(2)
        (id, code)
      }
    )
    val jrdd = jdbcRdd.collect()
    println(jdbcRdd.collect().toBuffer)
    sc.stop()
  }
}

Spark操作資料庫API

寫入Mysql資料庫 import java.sql.{Connection, Date, DriverManager, PreparedStatement} import org.apache.spark.{SparkConf, SparkContext} object

SQLiteOpenHelper類的簡化操作資料庫(api查詢方式)

<span style="font-family: Arial, Helvetica, sans-serif;">package com.sqf.sql.db;</span> import android.content.Context; impor

使用flask開發RESTful架構的api伺服器端(4)–flask操作資料庫

flask有一個對資料庫的擴充套件flask-sqlalchemy，它簡化了在flask中對sqlalchemy的操作，sqlalchemy是一個強大的關係資料庫框架，支援一些資料庫後端，提供高階的ORM和底層訪問資料庫的本地sql功能；使用pip來安裝flask-sqlalchemy

Spark部分聚合操作的API總結

本文主要簡單的講講Spark幾個常用的聚合操作的API的使用和之間的一些區別。建立一個JavaRDD和一個JavaPairRDD reduce 執行結果 reduceByKey

java selenium (九) 常見web UI 元素操作及API使用

清空 radio send link checkbox list select ttext lba 鏈接(link) <div> <p>鏈接 link</p> <a href="www.cn

Spark 操作Hive 流程

pen 系統權限 usr art cal tar 數據密碼連接 1.ubuntu 裝mysql 2.進入mysql： 3.mysql>create database hive （這個將來是存你在Hive中建的數據庫以及表的信息的（也就是元數據））mysql=》h

Redis（三）Redis基本命令操作與API

最新 integer 朋友圈 shm ica 有序集合 object prop hashmap 一Redis 連接 Redis 連接命令主要是用於連接 redis 服務。實例以下實例演示了客戶端如何通過密碼驗證連接到 redis 服務，並檢測服務是否在運行： r

APACHE SPARK 2.0 API IMPROVEMENTS: RDD, DATAFRAME, DATASET AND SQL

new limit runtime font blank eth epo rmi syn What’s New, What’s Changed and How to get Started. Are you ready for Apache Spark 2.0? If yo

HDFS基本操作的API

clas hello iterator 調用方法 fsd for 副本 == and 一、從hdfs下載文件到windows本地： package com.css.hdfs01; import java.io.IOException; import java.net.U

Structure Streaming和spark streaming原生API訪問HDFS檔案資料對比

此文已由作者嶽猛授權網易雲社群釋出。歡迎訪問網易雲社群，瞭解更多網易技術產品運營經驗。 Structure Stream訪問方式 code examples import org.apache.spark.sql.streaming._ val df = spark.

python之操作資料庫

一、操作mysql 首先，python3操作mysql.需要安裝第三方模組pymysql，在python2中則使用的是pysqldb。這裡使用pymysql. 直接使用pip install pymysql或python3 setup.py install安裝。 1.1連線mysql impor

JDBC（資料庫的驅動、連線、java程式操作資料庫、事務、隔離級別、連線池等）

java操作資料庫的思想：連上資料庫，傳送sql語句。在連上資料庫之前，要先用程式啟動資料庫，因此，可以通過反射載入類驅動（com.jdbc.mysql.Driver）。通過驅動管理類的靜態方法傳遞資料庫的url來獲取一個連線物件（connection）。有三個過載的方法，第一個user和p

JSP學習之---運用useBean和jdbc操作。實現簡答前臺操作資料庫。

JSP學習之—運用useBean和jdbc操作。實現簡答前臺操作資料庫。功能描述 1 . 在”student”表中查詢所有大於特定年齡的學生資訊，此年齡由使用者指定（提示，在網頁上面新增一個文字框用於使用者輸入年齡，然後根據使用者輸入的年齡建立sql語句，下面加一個按鈕，單擊按

python操作資料庫，實現使用者名稱、密碼登入資料庫，首次登入自行設定密碼，並返回工資表明細。

python操作資料庫，實現使用者名稱、密碼登入資料庫，首次登入自行設定密碼，並返回工資表明細。 1 #!/usr/bin/env python3 2 # -*- coding: utf-8 -*- 3 4 # 匯入依賴包 5 import psycopg2 6 7 print("營

JPA的操作資料庫方法的命名規則

最後一個有水印補一下： IgnoreCase findByNameIgnoreCase where UPPER(name)=UPPER(?) 再補充兩個： existisByXXX，結構與findBy類

Hibernate_day02---實體類操作、物件狀態、一級快取、事務操作、API

一、實體類編寫規則 1）實體類裡面屬性私有的 2）私有屬性使用公開的set和get方法操作 3）要求實體類有屬性作為唯一值（一般使用id值） 4）實體類屬性建議不使用基本資料型別，使用基本資料型別對應的包裝類應用環境：可以解決區分出值為零（score=0）和值不存在（

Java 8 集合之流式(Streams)操作, Streams API 詳解

因為當時公司的業務需要對集合進行各種各樣的業務邏輯操作,為了提高效能，就用到了這個東西，因為以往我們以前用集合都是需要去遍歷(序列)，所以效率和效能都不是特別的好，而Streams就可以使用並行的方式來操作集合。 Stream 就如同一個迭代器（Iterator），單向，不可往復，資料只能遍歷一次，遍歷過一

mysql 操作資料庫（備份與恢復）

一、直接把建立資料庫的語句放到sql 檔案中： php 寫法： <?php $mysql_port = get_mysql_port(); $cmd = US_MYSQL_BIN."/mysql.exe --port=".

springboot操作資料庫總結（流程圖+程式碼）

springboot提供了很多種操作資料庫的方式，大致思路都差別不大，只是使用的一些細節存在差異。 1.JpaRepository spring data有一個分支為spring data JPA，是專門針對J

DEVOPS02-pymysql模組應用 sqlalchemy和ORM sqlalchemy操作資料庫

一、PyMySQL模組 1.1 PyMySQL安裝 1.1.1 使用pypi • pypi即python package index • 是python語言的軟體倉庫 • 官方站點為https://pypi.python.org 1

Spark操作資料庫API

相關推薦