1. 程式人生 > >Spark+Scala:資料分析統計

Spark+Scala:資料分析統計

本專案適合初學者,訂閱該 Chat 前,希望您:

  1. 瞭解 Scala 語法;
  2. 已經安裝好 Logstash(專案中不會講解 Logstash 的安裝);
  3. 知曉 Spark 基本操作,例如:Map、Filter、foreachPartition 等;
  4. 瞭解 Kafka。

該專案大概架構為:

  1. 利用 Python 生成相對應的檔案格式,當做 Demo 日誌供程式呼叫;
  2. 通過 Logstash,篩選出符合要求的資料,並存入 Kafka;
  3. 通過 KafkaUtils.createDirectStream 讀取 Kafka 中資料,並進行分析(該處其版本為 Spark-Streaming-Kafka-0-10:2.3.1);
  4. 存入資料庫。

本專案模擬分析的檔案暫定為統計電視劇的播放量,通過本次例子,希望您可以瞭解並學會如何統計例如網站到訪量分析、廣告點選量分析、日常程式 Log 日誌分析。

除此之外,本專案還會對日常程式 Log 的日誌分析進行講解,並附帶小部分 Python 爬蟲知識。

一場場看太麻煩?成為 GitChat 會員,暢享 1000+ 場 Chat !點選檢視