spark SQL學習（綜合案例-日誌分析）

阿新 • • 發佈：2019-01-10

日誌分析


scala> import org.apache.spark.sql.types._
scala> import org.apache.spark.sql.Row


scala> val logRDD = sc.textFile("hdfs://master:9000/student/2016113012/data/log.txt").map(_.split("#"))
logRDD: org.apache.spark.rdd.RDD[Array[String]] = MapPartitionsRDD[2] at map at <console>:21


val schema = StructType(
    Array(
        StructField("ipAddress",StringType,true),
        StructField("clientIndentd",StringType,true),
        StructField("userId",StringType,true),
        StructField("dateTime",StringType,true),
        StructField("protocal",StringType,true),
        StructField("responseCode",StringType,true),
        StructField("contentSize",IntegerType,true)

    )

)


val rowRDD = logRDD.map(p => Row(p(0),p(1),p(2),p(3),p(4),p(5),p(6).toInt))
val logDF = sqlContext.createDataFrame(rowRDD,schema)
logDF.registerTempTable("logs")

//統計訪問檔案大小的平均值，最大值，最小值
scala> sqlContext.sql("select avg(contentSize),min(contentSize),max(contentSize) from logs").show()
17/03/07 17:04:20 INFO ParseDriver: Parsing command: select avg(contentSize),min(contentSize),max(contentSize) from logs
17/03/07 17:04:20 INFO ParseDriver: Parse Completed
17/03/07 17:04:21 INFO FileInputFormat: Total input paths to process : 1
17/03/07 17:04:22 INFO deprecation: mapred.tip.id is deprecated. Instead, use mapreduce.task.id
17/03/07 17:04:22 INFO deprecation: mapred.task.id is deprecated. Instead, use mapreduce.task.attempt.id
17/03/07 17:04:22 INFO deprecation: mapred.task.is.map is deprecated. Instead, use mapreduce.task.ismap
17/03/07 17:04:22 INFO deprecation: mapred.task.partition is deprecated. Instead, use mapreduce.task.partition
17/03/07 17:04:22 INFO deprecation: mapred.job.id is deprecated. Instead, use mapreduce.job.id
+------+----+----+
|   _c0| _c1| _c2|
+------+----+----+
|3506.0|2000|5554|
+------+----+----+

//統計響應程式碼的數量
scala> sqlContext.sql("select responseCode,count(*) from logs group by responseCode").show()
17/03/07 17:52:26 INFO ParseDriver: Parsing command: select responseCode,count(*) from logs group by responseCode
17/03/07 17:52:26 INFO ParseDriver: Parse Completed
+------------+---+                                                              
|responseCode|_c1|
+------------+---+
|         304|  1|
|         200|  2|
+------------+---+

//統計大於1次的ip地址
scala> sqlContext.sql("select ipAddress,count(1) as total  from logs group by ipAddress having total > 1").show()
17/03/07 17:55:20 INFO ParseDriver: Parsing command: select ipAddress,count(1) as total  from logs group by ipAddress having total > 1
17/03/07 17:55:20 INFO ParseDriver: Parse Completed
+----------+-----+                                                              
| ipAddress|total|
+----------+-----+
|10.0.0.153|    3|
+----------+-----+

問題：如何將p(4)裡面的繼續切分

spark SQL學習（綜合案例-日誌分析）

日誌分析 scala> import org.apache.spark.sql.types._ scala> import org.apache.spark.sql.Row scala> val logRDD = sc.textFile("hdfs://

Spark專案學習-慕課網日誌分析-days2-Spark SQL

1.Spark SQL 概述（1）為什麼需要SQL 1）事實上的標準 2）簡單易學 Hive：類似於sql的Hive QL語言 sql==>mapreduce 特點：基於mapreduce 改進：基於tez spar

Spark SQL 筆記(10)——實戰網站日誌分析（1）

1 使用者行為日誌介紹 1.1 行為日誌生成方法 Nginx Ajax 1.2 日誌內容訪問的系統屬性：作業系統、瀏覽器訪問特徵：點選的 url、從哪個url 跳轉過來的（referer）、頁

Spark SQL 筆記(11)——實戰網站日誌分析（2）統計結果入庫

1 統計結果入庫使用 DataFrame API 完成統計分析使用 SQL API 完成統計分析將結果寫入 MySQL 資料庫 1.1 調優點分割槽欄位的資料型別的調整 https://

Spark SQL 筆記(15)——實戰網站日誌分析（5）資料視覺化

1 常見的視覺化框架 echarts highcharts d3.js HUE Zeppelin 2 建立 Web 專案下載Echarts的檔案放到此目錄 http://echarts.bai

spark SQL學習（案例-統計每日uv）

需求：統計每日uv package wujiadong_sparkSQL import org.apache.spark.sql.{Row, SQLContext} import org.apache.spark.sql.types._ import org.apach

spark SQL學習（案例-統計每日銷售）

需求：統計每日銷售額 package wujiadong_sparkSQL import org.apache.spark.sql.types._ import org.apache.spark.sql.{Row, SQLContext} import org.apach

Spark專案學習-慕課網日誌分析-days5-Spark on Yarn

1. 概述（1）在Spark中，支援4種執行模式： 1）local:開發時使用 2）standalone：是Spark自帶的，如果一個叢集是Standalone的話，那就需要在多臺機器上同時部署Spa

Spark專案學習-慕課網日誌分析-days4-慕課網日誌分析

一慕課網日誌分析實戰專案 1）使用者行為日誌概述 2）離線資料處理架構（資料如何採集，如何清洗，需求處理，寫入資料庫，視覺化） 3）專案需求 4）功能實現

Spark專案學習-慕課網日誌分析-days3-External Data Source 外部資料來源

1. External Data Source 外部資料來源 1）每一個spark程式以載入資料開始，以輸出資料結束 2）方便快速的從不同的資料來源（json、parquet/rdbms），經過混合處理，在將處理結果以特定的格式，寫回到

Spark專案學習-慕課網日誌分析-days3-DataFrame&Dataset

1.DataFrame 1）不是Spark SQL提出的，而是早期在R，Pandas中產生的 2）DataFrame是一個以列（列名、列的型別、列值）的形式構成的分散式的資料集，按照列賦予不同的名稱 3）

Spark專案學習-慕課網日誌分析-days1-hadoop

1. HDFS架構 1 Master（NameNode/NM）帶 N個Slaves（DataNode/DN) HDFS/YARN/HBase 1個檔案會被拆分成多個Block NN： 1）負責客戶端請求的響應 2）負責元資料（檔案的名稱、

第80課：Spark SQL網站搜尋綜合案例實戰

內容： 1.案例分析 2.案例實戰一、案例分析專案：以京東找出搜尋平臺排名的產品，The hottest 元資料：date，u

spark SQL學習（認識spark SQL）

spark SQL學習（認識spark SQL） spark SQL初步認識 spark SQL是spark的一個模組，主要用於進行結構化資料的處理。它提供的最核心的程式設計抽象就是DataFrame。 DataFrame：它可以根據很多源進行構建，包括：結構化的資料檔案，hive中的表

Linux:使用bash指令碼分析日誌（交易資訊日誌分析）

使用bash指令碼分析日誌背景總所周知，線上交易程式不能輕易修改程式碼，以防止出現不必要的錯誤。但於此同時，在進行交易資訊分析時，部分需要根據原始資料計算才能得到的指標無法直接獲取，而且日誌資訊比較雜亂，不便彙總分析，因此可以使用bash指令碼對日誌進行分析。

Hadoop學習筆記—20.網站日誌分析專案案例（三）統計分析

網站日誌分析專案案例（三）統計分析：當前頁面一、藉助Hive進行統計1.1 準備工作：建立分割槽表　　為了能夠藉助Hive進行統計分析，首先我們需要將清洗後的資料存入Hive中，那麼我們需要先建立一張表。這裡我們選擇分割槽表，以日期作為分割槽的指標，建表語句如下：（這裡關鍵之

Hadoop學習筆記—20.網站日誌分析專案案例（一）專案介紹

網站日誌分析專案案例（一）專案介紹：當前頁面一、專案背景與資料情況1.1 專案來源　　本次要實踐的資料日誌來源於國內某技術學習論壇，該論壇由某培訓機構主辦，匯聚了眾多技術學習者，每天都有人發帖、回帖，如圖1所示。圖1 專案來源網站-技術學習論壇　　本次實踐的目的就在於通過對該

Hadoop學習筆記—20.網站日誌分析專案案例（二）資料清洗

網站日誌分析專案案例（二）資料清洗：當前頁面一、資料情況分析1.1 資料情況回顧　　該論壇資料有兩部分：　　（1）歷史資料約56GB，統計到2012-05-29。這也說明，在2012-05-29之前，日誌檔案都在一個檔案裡邊，採用了追加寫入的方式。　　（2）自2013-05-

Dubbo學習系列之十六（ELK海量日誌分析框架）

外賣公司如何匹配騎手和訂單？淘寶如何進行商品推薦？或者讀者興趣匹配？還有海量資料儲存搜尋、實時日誌分析、應用程式監控等場景，Elasticsearch或許可以提供一些思路，作為業界最具影響力的海量搜尋與分析產品，搜尋軟體公司 Elastic 上市了！首日市值翻倍！Elastic 從小工具「逆襲」

ELK服務搭建（開源實時日誌分析ELK平臺部署）（低版本—簡單部署）

搜索引擎應用程序官方網站服務器安全性 elk 開源實時日誌分析ELK平臺部署日誌主要包括系統日誌、應用程序日誌和安全日誌。系統運維和開發人員可以通過日誌了解服務器軟硬件信息、檢查配置過程中的錯誤及錯誤發生的原因。經常分析日誌可以了解服務器的負荷，性能安全性，從而及時采取措施糾正

spark SQL學習（綜合案例-日誌分析）

日誌分析

相關推薦