Spark案例實戰之一

阿新 • • 發佈：2018-12-25

一.計算最受歡迎的老師

1.專案需求：現有某網路上的訪問日誌，現需要計算某一學科下被訪問次數最多的老師。
2.網路的url如右：http://bigdata.xiaoniu.com/laozhaobigdata表示學科，laozhao表示教師。
3.程式碼如下：

import java.net.URL

import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext}

/*
1.分析最受歡迎的老師
 */
object PopularTeacher{
  def main(args:Array[String]): Unit = {
    val 
 words = Array("http://bigdata.xiaoniu.com/laozhao",
      "http://bigdata.xiaoniu.com/laozhao",
      "http://bigdata.xiaoniu.com/laozhao",
      "http://bigdata.xiaoniu.com/laozhao",
      "http://bigdata.xiaoniu.com/laozhao",
      "http://java.xiaoniu.com/laozhang",
      "http://java.xiaoniu.com/laozhang",
      "http://python.xiaoniu.com/laoqian" 
,
      "http://java.xiaoniu.com/laoli",
      "http://python.xiaoniu.com/laoli",
      "http://python.xiaoniu.com/laoli")

    val conf = new SparkConf().setAppName("Popular").setMaster("local")
    val sc = new SparkContext(conf)

    //讀取資料
    //val result1 :RDD [String]= sc.textFile(args(0))
    val result1 = sc.parallelize(words)
    val 
 subjectAndTeacher:RDD[(String,String)]  = result1.map(lines =>{
      val url = new URL(lines)
      println("url = "+url)
      val host = new URL(lines).getHost
      println("host = "+host)

      val subject = host.substring(0,host.indexOf("."))//切分字串
      val teacher = url.getPath.substring(1)//獲得老師的名字
      (subject,teacher)//這是一個直接返回的
    })//整理資料

    //總的排序
    val result2 = subjectAndTeacher.map(x => (x,1))  //形成  ((鍵值對)，1) 這種map
    val result22 = result2.reduceByKey(_+_)//根據鍵將相同的合併
    //print("result22's content are:") //並行的程式，你永遠都不知道是不是按照程式的順序輸出
    result22.foreach(println)

    val result3: Array[((String, String), Int)] = result22.collect()
    //println(result3.toBuffer)

    //每個學科裡面做排序   區域性排序   按照學科的名字排序
    //val result4  = result22.groupBy(_._1._1)
    val result4: RDD[(String, Iterable[((String, String), Int)])] = result22.groupBy(x => x._1._1)

    //二次排序
    //將keys和values轉換成List型別，然後按照values排序，然後倒敘輸出，然後取前三
    val result5: RDD[(String, List[((String, String), Int)])] = result4.mapValues(_.toList.sortBy(_._2).reverse.take(3))
    val result = result5.collect()
    result5.foreach(println)
  }
}

import java.net.URL

import org.apache.spark.rdd.RDD
import org.apache.spark.{Partitioner, SparkConf, SparkContext}

/**
  *1.自定義分割槽器
  *2.繼承自Partitioner
  *3.subjects是一個字串陣列
  *
   * @param subjects
  */
class SelfPartition (subjects :Array[String]) extends Partitioner{
 /*當課程和分割槽之間沒有定義規則時，需要自定義規則
 val rules = new mutable.HashMap[String ,Int]()
 var i = 0
  for (sub <- subjects){
    rules += (sub -> i)
    i+=1
  }
  */
  //直接固定map
  val rules = Map("bigdata"-> 1,"java"->2,"python"->3)//不用new 直接寫Map

  //定義分割槽數    是個方法，而不是定義變數
  override def numPartitions: Int = {
    subjects.length
  }

  //獲取具體分割槽
  override def getPartition(key: Any): Int ={
    val k = key.toString
    rules.getOrElse(k,0)
  }
}

/**
  * 1.訪問記錄儲存是一個URL，暫時用一個records = Array[String]來儲存
  * 2.將records轉換成text(一個rdd)
  * 3.對text進行操作，如：mapPartitions，map
  * 4.將操作後的結果收集並寫出到控制檯
  */


object FavoriteTeacher{
  def main (args:Array[String]): Unit ={
    val conf = new SparkConf().setAppName("FavoriteTeacher").setMaster("local")
    val sc = new SparkContext(conf)

    //儲存文字
    val records: Array[String] = Array("http://bigdata.xiaoniu.com/laozhao",
      "http://bigdata.xiaoniu.com/laozhao",
      "http://bigdata.xiaoniu.com/laozhao",
      "http://bigdata.xiaoniu.com/laozhao",
      "http://bigdata.xiaoniu.com/laozhao",
      "http://java.xiaoniu.com/laozhang",
      "http://java.xiaoniu.com/laozhang",
      "http://python.xiaoniu.com/laoqian",
      "http://java.xiaoniu.com/laoli",
      "http://python.xiaoniu.com/laoli",
      "http://python.xiaoniu.com/laoli")
    val text: RDD[String] = sc.parallelize(records)//轉換成rdd
    print("First disposition:")
    text.collect().foreach(println)
    //列印結果如下：http://bigdata.xiaoniu.com/laozhao
//    http://bigdata.xiaoniu.com/laozhao
//    http://bigdata.xiaoniu.com/laozhao
//    http://bigdata.xiaoniu.com/laozhao
//    http://bigdata.xiaoniu.com/laozhao
//    http://java.xiaoniu.com/laozhang
//    http://java.xiaoniu.com/laozhang
//    http://python.xiaoniu.com/laoqian
//    http://java.xiaoniu.com/laoli
//    http://python.xiaoniu.com/laoli
//    http://python.xiaoniu.com/laoli

    /*
      1.處理lines,並返回一個(String,String)元組
     */
    def fun1(lines :String ): (String, String) = {
      val url = new URL(lines)//將lines轉換成URL
      val hostName = url.getHost//獲取host
      val path = url.getPath//獲取path
      val courseName = hostName.substring(0,hostName.indexOf("."))//獲取課程名
      val teacherName = path.substring(1)//獲取教師的姓名
      (courseName,teacherName)
    }
    val res1: RDD[(String, String)] = text.map(fun1)
    print("Second disposition:")
    res1.foreach(print)
    //列印結果如下：(bigdata,laozhao)(bigdata,laozhao)(bigdata,laozhao)
    // (bigdata,laozhao)(bigdata,laozhao)(java,laozhang)(java,laozhang)(python,laoqian)
    // (java,laoli)(python,laoli)(python,laoli)


    val res2: RDD[((String, String), Int)] = res1.map(x => (x,1))//形成一個map 組合
    val res3: RDD[((String, String), Int)] = res2.reduceByKey(_+_)//根據Key將每個map合併
    print("Third disposition:")
    res3.foreach(print)
    val res4: RDD[(String, Iterable[((String, String), Int)])] = res3.groupBy(_._1._1)//根據學科來分組
    res4.foreach(println)
    val finRes  = res4.mapValues(x => x.toList.sortBy(_._2).reverse.take(2))//對value操作！很重要
    finRes.foreach(print)

//    val selfPartition = new SelfPartition(records)//new 一個分割槽物件
//    val res4 = res2.reduceByKey(selfPartition,_+_)
  }
}

import java.net.URL

import org.apache.spark.rdd.RDD
import org.apache.spark.{Partitioner, SparkConf, SparkContext}

import scala.collection.mutable

/**
  *1.自定義分割槽器
  *2.繼承自Partitioner
  *3.subjects是一個字串陣列
  *
   * @param subjects
  */
class SelfPartition (subjects :Array[String]) extends Partitioner{
 //當課程和分割槽之間沒有定義規則時，需要自定義規則
 val rules = new mutable.HashMap[String ,Int]()
 var i = 0
  for (sub <- subjects){
    rules += (sub -> i)  //將rules逐漸新增完
    i+=1
  }

  //直接固定map
  //val rules = Map("bigdata"-> 1,"java"->2,"python"->3)//不用new 直接寫Map

  //定義分割槽數    是個方法，而不是定義變數
  override def numPartitions: Int = {
    subjects.length+   1
  }

  //獲取具體分割槽
  override def getPartition(key: Any): Int ={
    val k = key.toString
    rules.getOrElse(k,0)
  }
}

/**
  * 1.訪問記錄儲存是一個URL，暫時用一個records = Array[String]來儲存
  * 2.將records轉換成text(一個rdd)
  * 3.對text進行操作，如：mapPartitions，map
  * 4.將操作後的結果收集並寫出到控制檯
  * 5.讓每個學科分到各自的分割槽
  */


object FavoriteTeacher{
  def main (args:Array[String]): Unit ={
    val conf = new SparkConf().setAppName("FavoriteTeacher").setMaster("local")
    val sc = new SparkContext(conf)

    //儲存文字
    val records: Array[String] = Array("http://bigdata.xiaoniu.com/laozhao",
      "http://bigdata.xiaoniu.com/laozhao",
      "http://bigdata.xiaoniu.com/laozhao",
      "http://bigdata.xiaoniu.com/laozhao",
      "http://bigdata.xiaoniu.com/laozhao",
      "http://java.xiaoniu.com/laozhang",
      "http://java.xiaoniu.com/laozhang",
      "http://python.xiaoniu.com/laoqian",
      "http://java.xiaoniu.com/laoli",
      "http://python.xiaoniu.com/laoli",
      "http://python.xiaoniu.com/laoli")
    val text: RDD[String] = sc.parallelize(records)//轉換成rdd
    print("First disposition:")
    text.collect().foreach(println)
    //列印結果如下：http://bigdata.xiaoniu.com/laozhao
//    http://bigdata.xiaoniu.com/laozhao
//    http://bigdata.xiaoniu.com/laozhao
//    http://bigdata.xiaoniu.com/laozhao
//    http://bigdata.xiaoniu.com/laozhao
//    http://java.xiaoniu.com/laozhang
//    http://java.xiaoniu.com/laozhang
//    http://python.xiaoniu.com/laoqian
//    http://java.xiaoniu.com/laoli
//    http://python.xiaoniu.com/laoli
//    http://python.xiaoniu.com/laoli

    /*
      1.處理lines,並返回一個(String,String)元組
     */
    def fun1(lines :String ): (String, String) = {
      val url = new URL(lines)//將lines轉換成URL
      val hostName = url.getHost//獲取host
      val path = url.getPath//獲取path
      val courseName = hostName.substring(0,hostName.indexOf("."))//獲取課程名
      val teacherName = path.substring(1)//獲取教師的姓名
      (courseName,teacherName)
    }
    val res1: RDD[(String, String)] = text.map(fun1)
    print("Second disposition:")
    res1.foreach(print)
    //列印結果如下：(bigdata,laozhao)(bigdata,laozhao)(bigdata,laozhao)
    // (bigdata,laozhao)(bigdata,laozhao)(java,laozhang)(java,laozhang)(python,laoqian)
    // (java,laoli)(python,laoli)(python,laoli)


    val res2: RDD[((String, String), Int)] = res1.map(x => (x,1))//形成一個map 組合
    val subjects: Array[String] = res2.map(_._1._1).distinct().collect()

    print("subjects = "+subjects)


    val res3: RDD[((String, String), Int)] = res2.reduceByKey(_+_)//根據Key將每個map合併
    print("Third disposition:")
    res3.foreach(print)

    val selfPartition = new SelfPartition(subjects)

    //按照自定義的規則分割槽shuffle
     val res4: RDD[(String, (String, Int))] = res3.map(t => (t._1._1, (t._1._2,t._2))).partitionBy(selfPartition)

    /*
      * 1.分割槽中本來就是Iterator,所以在toList之後，需要再轉換成iterator
      */
    val result: RDD[(String, (String, Int))] = res4.mapPartitions(_.toList.sortBy(_._2._2).reverse.take(2).iterator)
    result.foreach(print)
  }
}

Spark案例實戰之一

一.計算最受歡迎的老師 1.專案需求：現有某網路上的訪問日誌，現需要計算某一學科下被訪問次數最多的老師。 2.網路的url如右：http://bigdata.xiaoniu.com/laozhaobigdata表示學科，laozhao表示教師。 3.程式碼

spark 隨機森林算法案例實戰

方法 ring table shel evel 算法下使用 org trap 隨機森林算法由多個決策樹構成的森林，算法分類結果由這些決策樹投票得到，決策樹在生成的過程當中分別在行方向和列方向上添加隨機過程，行方向上構建決策樹時采用放回抽樣（bootstraping）得到

Spark學習（拾）- Spark Streaming進階與案例實戰

實戰之updateStateByKey運算元的使用 updateStateByKey操作允許您在使用新資訊不斷更新狀態的同時維護任意狀態。要使用它，您需要執行兩個步驟。 1、定義狀態——狀態可以是任意資料型別。 2、定義狀態更新函式——用函式指定如何使用以前的狀態和輸入流中的新值更新

Spark SQL：Hive資料來源複雜綜合案例實戰

一、Hive資料來源實戰 Spark SQL支援對Hive中儲存的資料進行讀寫。操作Hive中的資料時，必須建立HiveContext，而不是SQLContext。HiveContext繼承自SQLContext，但是增加了在Hive元資料庫中查詢表，以及用Hi

Spark SQL：JDBC資料來源複雜綜合案例實戰

一、JDBC資料來源實戰 Spark SQL支援使用JDBC從關係型資料庫（比如MySQL）中讀取資料。讀取的資料，依然由DataFrame表示，可以很方便地使用Spark Core提供的各種運算元

Spark修煉之道（進階篇）——Spark入門到精通：第十節 Spark SQL案例實戰（一）

作者：周志湖放假了，終於能抽出時間更新部落格了……. 1. 獲取資料本文通過將github上的Spark專案git日誌作為資料，對SparkSQL的內容進行詳細介紹資料獲取命令如下： [[email protected] spa

第80課：Spark SQL網站搜尋綜合案例實戰

內容： 1.案例分析 2.案例實戰一、案例分析專案：以京東找出搜尋平臺排名的產品，The hottest 元資料：date，u

第75課：Spark SQL基於網站Log的綜合案例實戰

內容： 1.案例概述 2.資料來源和分析一、案例概述 PV：頁面訪問數 UV：獨立訪問數二、資料來源和分析 packag

【備忘】《圖解Spark 核心技術與案例實戰》PDF

第1章 Spark及其生態圈概述 1．1 Spark簡介 1．1．1 什麼是Spark 1．1．2 Spark與MapReduce比較 1．1．3 Spark的演進路線圖 1．2 Spark生態系統 1．2．1 Spark Core 1．2．2

《圖解Spark：核心技術與案例實戰》介紹及書附資源

本書中所使用到的測試資料、程式碼和安裝包放在百度盤提供下載，連結: https://pan.baidu.com/s/1sXuOC3J-aHEc0E_kVWLqFg#list/path=%2F 另外在百度盤提供本書附錄下載，連結: https://pan.baidu.com/s/1sO8NXqry

Spark Streaming從Flume Poll資料案例實戰和內幕原始碼解密

本博文內容主要包括以下幾點內容： 1、Spark Streaming on Polling from Flume實戰 2、Spark Streaming on Polling from Flume原始碼一、推模式(Flume push SparkStre

Spark 隨機森林演算法原理、原始碼分析及案例實戰

圖 1. Spark 與其它大資料處理工具的活躍程度比較回頁首環境要求作業系統：Linux，本文采用的 Ubuntu 10.04，大家可以根據自己的喜好使用自己擅長的 Linux 發行版Java 與 Scala 版本：Scala 2.10.4，Java 1.7Spar

大資料IMF傳奇行動絕密課程第87課：Flume推送資料到Spark Streaming案例實戰和內幕原始碼解密

Flume推送資料到Spark Streaming案例實戰和內幕原始碼解密 1、Flume on HDFS案例回顧 2、Flume推送資料到Spark Streaming實戰 3、原理繪圖剖析一、配置.bashrc vi ~/.bashrc

12.Spark SQL：開窗函式以及top3銷售額統計案例實戰

Spark 1.4.x版本以後，為Spark SQL和DataFrame引入了開窗函式，比如最經典，最常用的，row_number()，可以讓我們實現分組取topn的邏輯。案例：統計每個種類的銷售額排名前3的產品java版本package cn.spark.study.s

Spark Streaming 實戰案例（三) DStream Window操作

本節主要內容 Window Operation入門案例1. Window Operation Spark Streaming提供視窗操作（Window Operation），如下圖所示：上圖中，紅色實線表示視窗當前的滑動位置，虛線表示前一次視窗位置，視窗每滑動一次，落在

Oracle數據庫12cR2（項目實戰之一）：在Windows上安裝Oracle12.2

oracle12c安裝 oracle12cr2安裝 oracle培訓教程 oracle視頻教程 oracle12cr2 oracle數據庫12cR2（項目實戰之二）：linux系統安裝Oracle12.2一、課程主題：風哥Oracle數據庫教程12cR2（項目實戰之二）：在linux操作系

Elasticsearch學習之深入聚合分析三---案例實戰

引用實戰 avg buck oba core 電視針對過濾 1. 統計指定品牌下每個顏色的銷量任何的聚合，都必須在搜索出來的結果數據中進行，搜索結果，就是聚合分析操作的scope GET /tvs/sales/_search { "size": 0, "

Elasticsearch學習之深入聚合分析五---案例實戰

ppi ont doc indices 理解 req eve 同步 nod 1. fielddata核心原理　　fielddata加載到內存的過程是lazy加載的，對一個analzyed field執行聚合時，才會加載，而且是field-level加載的,一個index的

Spark入門實戰系列--2.Spark編譯與部署（中）--Hadoop編譯安裝

二進制包 1.10 不能 mapr 修復 att 機器 mave end 【註】該系列文章以及使用到安裝包/測試數據能夠在《[傾情大奉送–Spark入門實戰系列] (http://blog.csdn.net/yirenboy/article/deta

PAI文本分析實驗：常用文本分析組件及案例實戰

lob 機器 src style 分詞 pla 實驗阿裏 pagerank 上一篇介紹了PAI以及機器學習相關的一點知識，沒有深入算法原理，只是從使用角度出發熟悉了操作流程，後面隨著學習的深入，我也會對算法原理做一個詳細的闡述。這次我們還是繼續實戰，認識機器學習在文本分析

Spark案例實戰之一

一.計算最受歡迎的老師

相關推薦