SparkSQL的小學習（方便隨時檢視）

阿新 • • 發佈：2018-11-12

1、SQLContextApp

package sparkSQLmook

import org.apache.spark.sql.SQLContext
import org.apache.spark.{SparkConf, SparkContext}


/**
  * spark1.6的SQL使用,本地模式
  */
object SQLContextApp {

 /* def main(args: Array[String]): Unit = {

      //val path = args(0)
      val conf = new SparkConf()
                   .setAppName("SQLContextApp")
                   .set("spark.sql.warehouse.dir","file:///")
                   .setMaster("local[2]")

      val sc = new SparkContext(conf)
      val sqlContext = new SQLContext(sc)


      val df = sqlContext.read.format("json").load("C://Users//shujuelin//Desktop//spark//people.json")

      df.show()
      sc.stop()
  }*/

  //生產模式
  def main(args: Array[String]): Unit = {

     val path = args(0)
      val conf = new SparkConf()

      val sc = new SparkContext(conf)

      val sqlContext = new SQLContext(sc)

      val df = sqlContext.read.format("json").load(path)


      df.show()
      sc.stop()
  }
}

2、SparkSessionApp

package sparkSQLmook

import org.apache.spark.sql
import org.apache.spark.sql.SparkSession

object SparkSessionApp {

  def main(args: Array[String]): Unit = {

     val spark = new SparkSession
                       .Builder()
                        .master("local")
                        .appName("SparkSessionApp")
                        .config("spark.sql.warehouse.dir","file:///")
                        .getOrCreate()

    val df = spark.read.json("C:/Users/shujuelin/Desktop/spark/people.json")

    df.show()

  }

}

3、ParquetDemo

package sparkSQLmook

import org.apache.spark.sql.SparkSession

object ParquetDemo {

  def main(args: Array[String]): Unit = {

     val spark = SparkSession
                  .builder()
                   .appName("ParquetDemo")
                   .master("local[2]")
                   .config("spark.sql.warehouse.dir","file:///")
                  .getOrCreate()

    /**
      * spark.read.format("parquet").load標準寫法
      */
     //val rddDF = spark.read.format("parquet").load("C://Users//shujuelin//Desktop//spark//users.parquet")
     //rddDF.show()

    //sparksql預設的處理format就是parquet
    // rddDF.select("name","favorite_color").write.format("json").save("C://Users//shujuelin//Desktop//spark//userss.json")

    /**
      * 通用型
      */
    val DF = spark.read.load("C://Users//shujuelin//Desktop//spark//users.parquet")
    DF.show(false)
    spark.stop()
  }

}

4、JdbcBeelineSQL

package sparkSQLmook

import java.sql.DriverManager

//通過jdbc方式訪問sparkSQL
object JdbcBeelineSQL {

  def main(args: Array[String]) {

    Class.forName("org.apache.hive.jdbc.HiveDriver")

    val conn = DriverManager.getConnection("jdbc:hive2://spark1:10000","root","")
    val pstmt = conn.prepareStatement("select name,age,score from students")
    val rs = pstmt.executeQuery()
    while (rs.next()) {
      println("name:" + rs.getString("name") +
        " , age:" + rs.getInt("age") +
        " , score:" + rs.getDouble("score"))

    }

    rs.close()
    pstmt.close()
    conn.close()


  }
}

5、HiveMySQLApp

package sparkSQLmook

import org.apache.spark.sql.SparkSession

/**
 * 使用外部資料來源綜合查詢Hive和MySQL的表資料
  *  外部資料來源綜合案例(重要)     把hive裡的表和mysql裡的表結合在一起
create database spark;
use spark;
//建立表
CREATE TABLE DEPT(
DEPTNO int(2) PRIMARY KEY,
DNAME VARCHAR(14) ,
LOC VARCHAR(13) ) ;

  //插入資料
INSERT INTO DEPT VALUES(10,'ACCOUNTING','NEW YORK');
INSERT INTO DEPT VALUES(20,'RESEARCH','DALLAS');
INSERT INTO DEPT VALUES(30,'SALES','CHICAGO');
INSERT INTO DEPT VALUES(40,'OPERATIONS','BOSTON');

  */
object HiveMySQLApp {

  def main(args: Array[String]) {
    val spark = SparkSession.builder().appName("HiveMySQLApp")
      .master("local[2]").getOrCreate()

    // 載入Hive表資料
    val hiveDF = spark.table("emp")

    // 載入MySQL表資料
    val mysqlDF = spark.read.format("jdbc").option("url", "jdbc:mysql://localhost:3306").option("dbtable", "spark.DEPT").option("user", "root").option("password", "root").option("driver", "com.mysql.jdbc.Driver").load()

    // JOIN
    val resultDF = hiveDF.join(mysqlDF, hiveDF.col("deptno") === mysqlDF.col("DEPTNO"))
    resultDF.show


    resultDF.select(hiveDF.col("empno"),hiveDF.col("ename"),
      mysqlDF.col("deptno"), mysqlDF.col("dname")).show

    spark.stop()
  }

}

6、HiveAPP

package sparkSQLmook

import org.apache.spark.sql.SparkSession

/**
  * sparkSQL操作hive表資料   1.讀：spark.table(tablename)
  * 2.寫：df.write.saveAsTable(tablename)
  */
object HiveAPP {
//採用spark.sql方式 --->在spark-shell裡操作
def main(args: Array[String]): Unit = {

  val spark = SparkSession.builder()
    .appName("DataFrameRdd")
    .master("local[2]")
    .config("spark.sql.warehouse.dir","file:///")
    .getOrCreate()

  import spark.implicits._


   //val HiveDf = spark.table("t_movies")
   spark.sql("show databases").show()

   }
}

7、DatasetApp

package sparkSQLmook

import org.apache.spark.sql.SparkSession

/**
 * Dataset操作  ->讀取scv檔案
 */
object DatasetApp {

  def main(args: Array[String]) {
    val spark = SparkSession.builder().appName("DatasetApp")
      .master("local[2]").getOrCreate()

    //注意：需要匯入隱式轉換
    import spark.implicits._

    val path = "file:///f:/text/sales.csv"

    //spark如何解析csv檔案？ 頭：就是csv中的欄位   inferSchema:自動推斷schema
    val df = spark.read.option("header","true").option("inferSchema","true").csv(path)
    df.show

    val ds = df.as[Sales]  //DataFrame轉換為DataSet
    //map是迭代，每一行只取出id
    ds.map(line => line.itemId).show


    spark.sql("seletc name from person").show

    //df.seletc("name")
    df.select("name")

    ds.map(line => line.itemId)

    spark.stop()
  }

  case class Sales(transactionId:Int,customerId:Int,itemId:Int,amountPaid:Double)
}

8、DataFrameRdd

package sparkSQLmook

import org.apache.spark.sql.SparkSession

/**
  * 將RDD轉換為DataFrame  第一種方式：採用反射的方式
  */

object DataFrameRdd {

  def main(args: Array[String]): Unit = {

      val spark = SparkSession.builder()
                   .appName("DataFrameRdd")
                   .master("local[2]")
                    .config("spark.sql.warehouse.dir","file:///")
                     .getOrCreate()

     //RDD ==> DataFrame

     val rdd = spark.sparkContext.textFile("C:/Users/shujuelin/Desktop/spark/infos.txt")

     import spark.implicits._

    //把Rdd轉換為DataFrame
     val lineDF = rdd.map(_.split(",")).map(line => info(line(0).toInt,line(1),line(2).toInt)).toDF()
    /* val lineRDD = rdd.map(line => line.split(","))
     val lineDF = lineRDD.map(lines => info(lines(0).toInt,lines(1),lines(2).toInt)).toDF()*/
     //lineDF.show()

     //1.基於DataFrame的api程式設計
     //lineDF.filter($"age">20).show()
    //2.基於sql的api
     lineDF.createOrReplaceTempView("info")
     spark.sql("select name,age from info where age >20").show()

      spark.stop()
  }

  case class info(id : Int, name : String, age : Int)

}

9、DataFrameRdd2

package sparkSQLmook

import org.apache.spark.sql.types.{IntegerType, StringType, StructField, StructType}
import org.apache.spark.sql.{Row, SparkSession}

/**
  * 把RDD轉換為DataFrame的第二種方式：程式設計式Row。當不知道資料的型別時候，採用
  */
object DataFrameRdd2 {

  def main(args: Array[String]): Unit = {

      val spark = SparkSession
                   .builder()
                  .appName("DataFrameRdd2")
                   .master("local[2]")
                   .config("spark.sql.warehouse.dir","file:///")
                  .getOrCreate()

      val rdd = spark.sparkContext.textFile("C:/Users/shujuelin/Desktop/spark/infos.txt")

      //1.把rdd轉為row
      val rddRow = rdd.map(_.split(",")).map(line => Row(line(0).toInt,line(1),line(2).toInt))
      //2.對row建立scheme元資料結構
      val structType = StructType(Array(
        StructField("id",IntegerType,true),
        StructField("name",StringType,true),
        StructField("age",IntegerType,true)))
      //把row和scheme繫結
      val df = spark.createDataFrame(rddRow,structType)
      //df.show()

    //sql式程式設計
      df.createOrReplaceTempView("info")//建立臨時表

      spark.sql("select * from info where age > 20").show()

    spark.stop()
  }

}

10、DataFrameOperation

package sparkSQLmook

import org.apache.spark.sql
import org.apache.spark.sql.functions._
/**
  * DataFrame的API操作
  */
object DataFrameOperation {

  def main(args: Array[String]): Unit = {

    val spark = new sql.SparkSession
    .Builder()
      .master("local")
      .appName("SparkSessionApp")
      .config("spark.sql.warehouse.dir","file:///")
      .getOrCreate()

    //隱式轉換
    import spark.implicits._
    //val df = spark.read.json("C:/Users/shujuelin/Desktop/spark/people.json")
     val df = spark.read.format("json").load("C:/Users/shujuelin/Desktop/spark/people.json")

    //df.show()//show()預設20條
    //df.printSchema()
    //df.select("name").show()//select操作，典型的弱型別，untyped操作
   // df.select($"name", $"age" + 1).show()  // 使用表示式，scala的語法，要用$符號作為字首。對年齡加1
    //df.filter($"age">19).show()
    //另一種寫法
    //df.filter(df.col("age")>19).show()
    df.select(df.col("name"),(df.col("age")+3).as("age2")).show() //別名
    //df.groupBy("age").count().show()//先分組在進行聚合
    spark.stop()
  }

}

11、DataFrameCase

package sparkSQLmook

import org.apache.spark.sql.SparkSession

/**
  * DataFrame的案例（api其他操作）
  */
object DataFrameCase {

  def main(args: Array[String]): Unit = {

      val spark = SparkSession
                  .builder()
                   .appName("DataFrameCase")
                   .master("local[2]")
                   .config("spark.sql.warehouse.dir","file:///")
                   .getOrCreate()

      val rdd = spark.sparkContext.textFile("C://Users//shujuelin//Desktop//spark//student.data")

      import spark.implicits._
     // 分割符|必須要加轉義字元\\
    //採用反射的方式轉換為dataframe
      val infoDF = rdd.map(_.split("\\|")).map(lines => info(lines(0).toInt,lines(1),lines(2),lines(3))).toDF()

      infoDF.show(false)//show 預設顯示20條  如果超出可以用 infoDF.show(30,false),false代表不擷取
      //infoDF.take(10).foreach(println)
      //infoDF.first()//拿第一條
      //infoDF.head(3) // 拿前三條
      //infoDF.select("name","phone").show()
      //infoDF.show(20,false)

    //過濾名字為空的和NULL的
    //infoDF.filter("name = '' or name = 'NULL'").show()

    //過濾名字以s開頭的
    //infoDF.filter("substr(name,0,1) = 's'").show(20,false)

    //排序
    //按照名字排序.預設升序
     //infoDF.sort($"name".desc).show()//或者  infoDF.sort(infoDF.col("name").desc).show()

     //infoDF.sort(infoDF.col("name").asc,infoDF.col("id").desc).show(20,false)

     //改欄位名字
      //infoDF.select(infoDF.col("name").as("student_info")).show(20,false)



     //join操作
    /* val infoDF2 = rdd.map(_.split("\\|")).map(lines => info(lines(0).toInt,lines(1),lines(2),lines(3))).toDF()

     infoDF.join(infoDF2, infoDF.col("id") === infoDF2.col("id")).show(20,false) //預設inner連線
*/
      spark.stop()

  }

  case class info(id : Int, name : String, phone : String, email : String)

}

SparkSQL的小學習（方便隨時檢視）

1、SQLContextApp package sparkSQLmook import org.apache.spark.sql.SQLContext import org.apache.spark.{SparkConf, SparkContext} /** * spark1.6的

salesforce零基礎學習（七十二）項目中的零碎知識點小總結（一）

gin 不同 grant dmi ima -m ron 角色 com 項目終於告一段落，雖然比較苦逼，不過也學到了好多知識，總結一下，以後當作參考。一.visualforce標簽中使用html相關的屬性使用曾經看文檔沒有看得仔細，導致開發的時候走了一些彎路。還好得到

web學習之部落格小專案（登入註冊模組）

這個小專案採用的框架是struts2+spring3+hibernate3 將action與hibernate整合到spring中剛入手時，還是沒有層次性，想到什麼就先寫什麼，寫完之後再回頭看時

關於VideoPlayer的使用（方便自己檢視的筆記）

unity5.6之後加的一個videoPlayer元件，也是查資料查到的方便自己之後檢視，直接用程式碼記錄 using UnityEngine; using UnityEngine.Video; public static class VideoPlayController

Android學習（二十六）APP引導頁面以及小圓點滑動的實現

1、先看效果如下： 2、然後實現這個效果大體說明： 1）滑動的頁面，用ViewPager來實現 2）小圓點用LinerLayout裡面新增圖片來實現 3）三個滑動頁面和小圓點都是圖片 4）當滑動到當前頁面的時候，小圓點顯示紅色，其他圓點顯示藍色 5）

如何從資料庫安裝包中檢視資料庫的小版本（非主流檢視法）

今日遇到一個麻煩事情。我有11.2.0.1 和11.2.0.3兩種安裝包，但是11.2.0.3的包不是以p10404530_112030_LINUX_類似的名稱命名的（吐槽下，不知道哪位勤奮的童鞋修改的與11.2.0.1一樣）這時候就有個問題了，我怎麼才能分辨哪個是哪個

phper 的Goland學習之路--- 切片（陣列的檢視）

1、切片：也就是底層陣列的檢視；經常用於傳遞引數，相當於陣列的區域性指標切片的初始值是nil ；如 var s [] int ; s是nil 切片定義：切片名 [ ] T T表示的切片元素型別 , 切片名就是指標地址 + 元素個數 + 容量個數

salesforce零基礎學習（九十六）專案中的零碎知識點小總結（四）

本篇參考： https://developer.salesforce.com/docs/atlas.en-us.216.0.apexcode.meta/apexcode/apex_classes_keywords_sharing.htm https://developer.salesforce.com/doc

css3的一個小demo（箭頭hover變化）

rotate osi ping align pos ref block translate -m 1 <!DOCTYPE html> 2 <html lang="en"> 3 <head> 4 <meta char

salesforce零基礎學習（七十四）apex:actionRegion以及apex:actionSupport淺談

xxx turn 組件聯動異步 action cti 相關 bottom 我們在開發中，很難會遇見不提交表單的情況。常用的apex:commandButton，apex:commandLink，apex:actionFunction，apex:actionSupport

軟工實踐學習（第三次）

bsp ima 增刪改查 pri 增刪 ext 處理 logs ring 經過這一段時間的ssh框架學習，通過老師帶我們完成一個項目後，我們需要自己從0開始，開始新的項目，重新搭建框架這次我選擇的是庫存管理系統首先依然是搭建hibernate，以及spring。

python簡單小程序（99乘法表）

while 解釋兩個位與顯示 con pri 數字 i+1 1. #99乘法表#第一種 for i in range(1,10): s=‘‘ for j in range (1,i+1): s+=str(j)+‘*‘+str(i)+‘

iOS 大批量彈幕小論（粒子彈幕）

etime 朋友 ios 模式任務監測 strong nts tab 一、現狀如今直播類、視頻播放器等基本都有彈幕模式。為了保持性能和內存可控，基本是在初始化的時候生成一個Pool（Pool的容量是設定好的）, 也就是利用重用機制（可以想象一下UITableView

【轉】JMeter學習（二十九）使用Jmeter創建ActiveMQ JMS POINT TO POINT請求，環境搭建、請求創建、插件安裝、監聽服務器資源等

分布式 jndi 根目錄 point 啟動 lib .cn 轉載 p2p 最近要做公司消息中間件的性能測試，第一個想到的工具就是Jmeter了，網上簡單搜了一下，基本上都是WEB測試的居多，只好自己研究官方文檔了。其中涉及Jmeter基本的術語或者概念，請自行參考官方文檔

【轉】JMeter學習（二十七）Jmeter常見問題

pre 麻煩 continue 而不是行為 let 方式 prop 右上角收集工作中JMeter遇到的各種問題 1. JMeter的工作原理是什麽？　　向服務器提交請求；從服務器取回請求返回的結果。 2. JMeter的作用？　　JMeter可以用於測試

【轉】JMeter學習（二十八）內存溢出解決方法

不能 -xms 百度解決 code apache 超過軟件測試內存使用jmeter進行壓力測試時遇到一段時間後報內存溢出outfmenmory錯誤，導致jmeter卡死了，先嘗試在jmeter.bat中增加了JVM_ARGS="-Xmx2048m -Xms2048m

【轉】JMeter學習（二十五）HTTP屬性管理器HTTP Cookie Manager、HTTP Request Defaults

agen 讀取 expired fault 範圍運行時 ear 定制只有一個 Test Plan的配置元件中有一些和HTTP屬性相關的元件：HTTP Cache Manager、HTTP Authorization Manager、HTTP Cookie Manager

用深度學習（CNN RNN Attention）解決大規模文本分類問題 - 綜述和實踐

分享最大的卷積神經網絡繼續基本思想直觀 paper int 最大 https://zhuanlan.zhihu.com/p/25928551 近來在同時做一個應用深度學習解決淘寶商品的類目預測問題的項目，恰好碩士畢業時論文題目便是文本分類問題，趁此機會總結下文本分

高維數據稀疏表示-什麽是字典學習（過完備詞典）

字典 cnblogs href title itl pos tle logs post 高維數據稀疏表示-什麽是字典學習（過完備詞典） http://www.cnblogs.com/Tavion/p/5166695.html高維數據稀疏表示-什麽是字典學習（過完備詞典）

關於java的一些小知識（課程作業02）

整型公開實例 -1 更多 nbsp 使用默認第一個 1，在java源代碼中加空格註釋不會影響程序的編譯速度。 2，一個java類文件中真的只能有一個公有類嗎？如果只在第一個public類裏面定義實體，或者兩個都不定義並沒有報錯且程序可以運行。每個編

SparkSQL的小學習（方便隨時檢視）

相關推薦