spark計算使用者訪問學科子網頁的top3

阿新 • • 發佈：2018-12-18

專案說明：附件為要計算資料的demo。點選開啟連結

利用spark的快取機制，讀取需要篩選的資料，自定義一個分割槽器，將不同的學科資料分別放到一個分割槽器中，並且根據指定的學科，取出點選量前三的資料，並寫入檔案。

具體程式如下：

1、專案主程式：

package cn.allengao.Location
import java.net.URL
import org.apache.spark.rdd.RDD
import org.apache.spark.{HashPartitioner, SparkConf, SparkContext}
/**
 * class_name: 
 * package: 
 * describe: 快取機制，自定義一個分割槽器，根據指定的學科, 取出點選量前三的，按照每種學科資料放到不同的分割槽器裡 
 * creat_user: Allen Gao
 * creat_date: 2018/1/30
 * creat_time: 11:21
 **/
object AdvUrlCount {
  def main(args: Array[String]) {
    //從資料庫中載入規則
    //    val arr = Array("java.learn.com", "php.learn.com", "net.learn.com")
    val conf = new SparkConf().setAppName("AdvUrlCount").setMaster("local[2]")
    val sc = new SparkContext(conf)
 
    //獲取資料
    val file = sc.textFile("j://information/learn.log")
    //提取出url並生成一個元祖，rdd1將資料切分，元組中放的是（URL， 1）
    val urlAndOne = file.map(line => {
      val fields = line.split("\t")
      val url = fields(1)
      (url, 1)
    })
    //把相同的url進行聚合
    val sumedUrl = urlAndOne.reduceByKey(_ + _)
    //獲取學科資訊快取,提高執行效率 
    val cachedProject = sumedUrl.map(x => {
      val url = x._1
      val project = new URL(url).getHost
      val count = x._2
      (project, (url, count))
    }).cache()
    //呼叫Spark自帶的分割槽器此時會發生雜湊碰撞，會有資料傾斜問題產生，需要自定義分割槽器
    //    val res = cachedProject.partitionBy(new HashPartitioner(3))
    //    res.saveAsTextFile("j://information//out")
    //得到所有學科
    val projects = cachedProject.keys.distinct().collect()
    //呼叫自定義分割槽器並得到分割槽號
    val partitioner = new ProjectPartitioner(projects)
    //分割槽
    val partitioned: RDD[(String, (String, Int))] = cachedProject.partitionBy(partitioner)
    //對每個分割槽的資料進行排序並取top3
    val res = partitioned.mapPartitions(it => {
      it.toList.sortBy(_._2._2).reverse.take(3).iterator
    })
    res.saveAsTextFile("j://information//out1")
    sc.stop()
  }
}

2、自定義分割槽器：

package cn.allengao.Location
import org.apache.spark.Partitioner
import scala.collection.mutable
classProjectPartitioner(projects: Array[String]) extendsPartitioner{
  //用來存放學科和分割槽號
  private val projectsAndPartNum = new mutable.HashMap[String,Int]()
  //計數器，用於指定分割槽號
  var n = 0
  for(pro<-projects){
    projectsAndPartNum += (pro -> n)
    n += 1
  }
  //得到分割槽數
  override def numPartitions = projects.length
  //得到分割槽號
  override def getPartition(key: Any) = {
    projectsAndPartNum.getOrElse(key.toString,0)
  }
}

執行結果：

spark計算使用者訪問學科子網頁的top3

專案說明：附件為要計算資料的demo。點選開啟連結利用spark的快取機制，讀取需要篩選的資料，自定義一個分割槽器，將不同的學科資料分別放到一個分割槽器中，並且根據指定的學科，取出點選量前三的資料，並寫入檔案。具體程式如下： 1、專案主程式： package

Spark專案練習（計算使用者訪問學科子網頁的top3）

專案說明：附件為要計算資料的demo。點選開啟連結利用spark的快取機制，讀取需要篩選的資料，自定義一個分割槽器，將不同的學科資料分別放到一個分割槽器中，並且根據指定的學科，取出點選量前三的資料，並寫入檔案。具體程式如下： 1、專案主程式： package cn.al

【Spark篇】---Spark中Transformations轉換算子

pack gpo rds color boolean long als sam park 一、前述 Spark中默認有兩大類算子，Transformation（轉換算子）,懶執行。action算子，立即執行，有一個action算子，就有一個job。通俗些來說由RDD變成

物理層、數據鏈路層、介質訪問控制子層

mar 可用傳輸介質變量 AR 多路復用數學接口實時物理層物理層定義了比特作為信號在信道上發送時相關的電氣、時序和其它接口，物理層是構建網絡的基礎。數據通信理論基礎：改變諸如電壓或者電流等某種物理特性的方法可用來在電線上傳輸信息，如果用一個以時間t為自變量

java-spark的各種常用算子的寫法

SM 接下來自定義 sca length spark owa 轉換得到通常寫spark的程序用scala比較方便，畢竟spark的源碼就是用scala寫的。然而，目前java開發者特別多，尤其進行數據對接、上線服務的時候，這時候，就需要掌握一些spark在ja

Spark mapPartitions 及mapPartitionsWithIndex算子

tor strong sca ole UNC 耗時 con spa ont mapPartitions 與map類似，map函數是應用到每個元素，而mapPartitions的輸入函數是每個分區的數據，把每個分區中的內容作為整體來處理的。當map裏面有比較耗時的初始化操

大資料學習之SPARK計算天下

學習大資料技術，SPARK無疑是繞不過去的技術之一，它的重要性不言而喻，本文將通過提問的形式圍繞著SPARK進行介紹，希望對大家有幫助，與此同時，感謝為本文提供素材的科多大資料的武老師。為了輔助大家更好去了解大資料技術，本文集中討論Spark的一系列技術問題，大家在學習過程中如果遇到困難，可以

MAC子層即訪問控制子層的硬體地址

乙太網的MAC子層 MAC子層的硬體地址（指的就是實體地址和MAC地址）：這種地址用在MAC幀中，IEEE802標準為區域網規定了一種48位（6B）的全球地址，是指固化在網絡卡中（網路介面卡）ROM中的地址。

【包圍盒計算】計算某個物件所有子物件的包圍盒

Spark Mlib(四)用spark計算tf-idf值

tf-idf演算法是用統計的手法衡量一個元素在一個集合中的重要程度。在自然語言處理中，該演算法可以衡量一個詞在語料中的重要程度。其本思想很簡單，字詞的重要性隨著它在檔案中出現的次數成正比增加，但同時會隨著它在語料庫中出現的頻率成反比下降。下面是spark官網（http://spark.apa

大資料之Spark（八）--- Spark閉包處理，部署模式和叢集模式，SparkOnYarn模式，高可用，Spark整合Hive訪問hbase類載入等異常解決，使用spark下的thriftserv

一、Spark閉包處理 ------------------------------------------------------------ RDD,resilient distributed dataset,彈性(容錯)分散式資料集。分割槽列表,function,dep Op

訪問自己搭建網頁時出現：此地址使用了一個通常用於網路瀏覽以外的埠。出於安全原因，Firefox 取消了該請求。

出現這種問題就是埠受到了限制，但是其他埠卻沒受到限制不知為何，希望有看到的大佬幫忙解答一下，下面說一下這個問題的解決辦法火狐位址列輸入 about:config 然後右鍵新建字串輸入network.security.ports.banned.ove

大資料spark計算引擎快速入門

spark快速入門 spark框架是用scala寫的，執行在Java虛擬機器（JVM）上。支援Python、Java、Scala或R多種語言編寫客戶端應用。下載Spark 訪問http://spark.apache.org/downloads.html 選擇預編譯的版本進行

使用動態規劃計算最長公共子串

public class MatchStr { public static String a="abcdfishftfuia345345345"; public static String b="foshdguuuutfu345345345abcd"; public static

Spark 計算過程分析

Spark是一個分散式的記憶體計算框架，其特點是能處理大規模資料，計算速度快。Spark延續了Hadoop的MapReduce計算模型，相比之下Spark的計算過程保持在記憶體中，減少了硬碟讀寫，能夠將多個操作進

Spark學習筆記（3）—— Spark計算模型 RDD

1 彈性分散式資料集RDD 1.1 什麼是 RDD RDD（Resilient Distributed Dataset）叫做分散式資料集，是Spark中最基本的資料抽象，它代表一個不可變、可分割槽、裡面的元素可平行計算的集合。RDD具有資料流模型的特點：自動容錯

Spark常用的transformation算子

遍歷假設每一個 imp 表示腳本 cti 並且 var 1.map 和 mapPartitions map的輸入變換函數應用於RDD中所有元素，而mapPartitions應用於所有分區。區別於mapPartitions主要在於調用粒度不同。mapPartition可

spark叢集啟動後，子機器上有worker程序，但在master機器上開啟webui，worker卻只有master是為什麼？

個人在學習時，電腦突然更新了，導致虛擬機器關閉，偽叢集掛起。重新開啟時，發現spark叢集啟動後，worker程序啟動，但並沒有在master上註冊。百度了下，發現防火牆打開了。。。關閉防火牆後master和worker之間能正常通訊了。 $ service ipt

Spark計算的核心RDD

在SparkCore中的一切計算都是基於RDD的，那RDD是個什麼東西呢? RDD是Resilient Distribute Dataset(彈性分散式資料集)的縮寫，說白了，RDD可以理解為spark處理資料的基本單位，但是RDD又不是真實的存有資料，它只是具

實現主機訪問虛擬機器網頁的方法總結

VMware Workstation提供了兩種虛擬機器上網方式，一種bridge,一種NAT，bridge可以獲得公網地址，而NAT只能是內網地址了。 NAT相當於把主機當成了一個NAT轉換器，我們可以新增埠對映，使得外網可以訪問利用NAT上網的虛擬機器。下面舉兩個例子使用的主機環境為主機：wi

spark計算使用者訪問學科子網頁的top3

相關推薦