第76課：Spark SQL實戰使用者日誌的輸入匯入Hive及SQL計算PV實戰

阿新 • • 發佈：2018-12-26

內容：

1.Hive資料匯入操作
2.SparkSQL對資料操作實戰

一、Hive資料匯入操作

create table userLogs(date String,timestamp bigint,userID bigint,pageID bigint,channel String,action String);
load data local inpath '/home/hadoop/learnSpark/SparkSQLDataManually/userLogs.log' into table row format delimited fields terminated by '\t' lines terminated by '\n';

二、SparkSQL對資料操作實戰

package SparkSQL;

import org.apache.spark.SparkConf;
import org.apache.spark.api.java.JavaSparkContext;
import org.apache.spark.sql.hive.HiveContext;

import java.text.SimpleDateFormat;
import java.util.Calendar;
import java.util.Date;

/**
 * FileName: SparkSQLUserLogsOps
 * Author:   hadoop
 * Email:     
[email protected]
 * Date:     18-11-12 下午10:19
 * Description:
 */
public class SparkSQLUserLogsOps {
    public static void main(String[] args){
        //建立SparkConf用於讀取系統資訊並設定運用程式的名稱
        SparkConf conf = new SparkConf().setAppName("SparkSQLUserLogsOps").setMaster("spark://Master:7077");
        //建立JavaSparkContext物件例項作為整個Driver的核心基石
        JavaSparkContext sc = new JavaSparkContext(conf);
        //設定輸出log的等級
        sc.setLogLevel("INFO");
        //建立SQLContext上下文物件，用於SqL的分析
        HiveContext hiveContext = new HiveContext(sc.sc());
        String twodaysago = getTwodaysago();
        pvStatistic(hiveContext,twodaysago);
    }

    private static void pvStatistic(HiveContext hiveContext, String twodaysago) {
        hiveContext.sql("use hive");
        String  sqlText = "select date,pageID,pv "
                +" from (select date,pageID,count(*) pv from userlogs  " +
                "where action = 'view' and date = 'twodaysago' group by date,pageID ) subqurey order by pv desc limit 10";
        hiveContext.sql(sqlText).show();
    }


    private static String getTwodaysago() {
        SimpleDateFormat date =  new SimpleDateFormat("yyyy-MM-dd");

        Calendar calender = Calendar.getInstance();
        calender.setTime(new Date());
        calender.add(Calendar.DATE,-2);

        Date yesterday = calender.getTime();
        return date.format(yesterday);
    }
}

第76課：Spark SQL實戰使用者日誌的輸入匯入Hive及SQL計算PV實戰

內容： 1.Hive資料匯入操作 2.SparkSQL對資料操作實戰一、Hive資料匯入操作 create table userLogs(date String,timestamp bigint,userI

第67課：Spark SQL下采用Java和Scala實現Join的案例綜合實戰（鞏固前面學習的Spark SQL知識）

內容： 1.SparkSQL案例分析 2.SparkSQL下采用Java和Scala實現案例一、SparkSQL下采用Java和Scala實現案例學生成績： {"name":"Michael","score":98} {"name":"Andy"

第72課：Spark SQL UDF和UDAF解密與實戰

內容： 1.SparkSQL UDF 2.SparkSQL UDAF 一、SparkSQL UDF和SparkSQL UDAF 1.解決SparkSQL內建函式不足問題，自定義內建函式， 2.UDF：User Define Functio

第73課：Spark SQL Thrift Server實戰

內容： 1.SparkSQL Thrift解析與測試 2.SparkSQL Thrift Server JDBC程式設計一、SparkSQL Thrift解析與測試 ThriftServer是一個JDBC/ODBC介面，使用者可以通過JDBC/

第80課：Spark SQL網站搜尋綜合案例實戰

內容： 1.案例分析 2.案例實戰一、案例分析專案：以京東找出搜尋平臺排名的產品，The hottest 元資料：date，u

第75課：Spark SQL基於網站Log的綜合案例實戰

內容： 1.案例概述 2.資料來源和分析一、案例概述 PV：頁面訪問數 UV：獨立訪問數二、資料來源和分析 packag

第71課：Spark SQL視窗函式解密與實戰

內容： 1.SparkSQL視窗函式解析 2.SparkSQL視窗函式實戰一、SparkSQL視窗函式解析 1.spark支援兩種方式使用視窗函式： &nb

第70課：Spark SQL內建函式解密與實戰

內容： 1.SparkSQL內建函式解析 2.SparkSQL內建函式實戰一、SparkSQL內建函式解析使用Spark SQL中的內建函式對資料進行分析，Spark

第69課：Spark SQL通過Hive資料來源實戰

內容： 1.Spark SQL操作Hive解析 2.SparkSQL操作Hive實戰一、Spark SQL操作Hive解析 1.在目前企業級大資料Spark開發的時候，

大資料Spark “蘑菇雲”行動補充內容第70課： Spark SQL程式碼實戰和效能調優 4個spark sql調優技巧有用！！！！

大資料Spark “蘑菇雲”行動補充內容第70課： Spark SQL程式碼實戰和效能調優 dataframe: Row是沒有型別的，因為Row中的所有成員都被看著Object型別！！！untype

第68課：Spark SQL通過JDBC操作MySQL

內容： 1.SparkSQL操作關係資料庫意義 2.SparkSQL操作關係資料庫一、通過SparkSQL操作關係資料庫意義 1.SparkSQL可以通過jdbc從傳統關係型資料庫中讀寫資料，讀取資料後直接生成DataFrame，然後在加上藉助

第79課：Spark SQL基於網站Log的綜合案例綜合程式碼和實際執行測試

內容： 1.熱門論壇板塊排名 2.綜合程式碼實戰和測試一、熱門論壇板塊排版建立表： spark.sql("createtable userlogs(date st

大資料IMF傳奇行動絕密課程第63課：Spark SQL下Parquet內幕深度解密

Spark SQL下Parquet內幕深度解密 1、Spark SQL下的Parquet意義再思考 2、Spark SQL下的Parquet內幕揭祕一、Spark SQL下的Parquet意義再思考 1、如果說HDFS是大資料時代分散式檔案系統儲存的事

大資料IMF傳奇行動絕密課程第64課：Spark SQL下Parquet的資料切分和壓縮內幕詳解

Spark SQL下Parquet的資料切分和壓縮內幕詳解 1、Spark SQL下的Parquet資料切分 2、Spark SQL下的Parquet資料壓縮 parquetBlocksize總體上講是壓縮後的大小 private static fina

第14課：spark RDD彈性表現和來源，容錯

hadoop 的MapReduce是基於資料集的,位置感知，容錯負載均衡基於資料集的處理：從物理儲存上載入資料，然後操作資料，然後寫入物理儲存裝置；基於資料集的操作不適應的場景： 1，不適合於大量的迭代 2，互動式查詢

第12課：spark高可用(HA)框架

worker管理資源：記憶體，cpu 只有standby模式的master變成active模式時才能想叢集提交任務，master切換過程不會影響程式的執行原因:程式在具體執行之前已經向叢集申請過資源，這些資源已經提交給driver了，也就是說已經分配好資源了，這是粗粒度分配，一次性分配

第55課：60分鐘內從零起步駕馭Hive實戰學習筆記

內容： Hive本質解析 Hive安裝實戰使用Hive操作搜尋引擎資料實戰 SparkSQL前身是Shark，Shark強烈依賴於Hive。Spark原來沒有做SQL多維度資料查詢工具，後來開發了Shark，Shark依賴於Hiv

第2課：全球詳細圖解jvm記憶體三大核心區域及其jvm記憶體案例實戰剖析

內容： 1.圖解JVM記憶體的三大核心區 2.JVM記憶體使用案例剖析一、圖解JVM記憶體的三大核心區二、VM記憶體使用案例剖析從JVM呼叫的角度分析Java程式對記憶體空間的使用： 1.當JVM程序啟動的時候,會從類載入路徑中找到包

第4課：Spark Streaming的Exactly Once的事務處理

本期內容： Exactly once 輸出不重複 Exactly once 1，事務一定會被處理，且只被處理一次； 2，輸出能夠輸出且只會被輸出。 Receiver：資料通過BlockManager寫入記憶體+磁碟或者通過WAL來保證資料的安全性。WAL機制：寫資料

第42課： Spark Broadcast內幕解密：Broadcast執行機制徹底解密、Broadcast原始碼解析、Broadcast最佳實踐

第42課： Spark Broadcast內幕解密：Broadcast執行機制徹底解密、Broadcast原始碼解析、Broadcast最佳實踐Broadcast在機器學習、圖計算、構建日常的各種演算法中到處可見。 Broadcast就是將資料從一個節點發送到其它的節點上；

第76課：Spark SQL實戰使用者日誌的輸入匯入Hive及SQL計算PV實戰

內容：

一、Hive資料匯入操作

二、SparkSQL對資料操作實戰

相關推薦