Scala版Spark簡單商品統計程式教程--逐行精講

阿新 • • 發佈：2018-12-14

題目是給一點點資料，統計總營業額，最受歡迎的商品啥的，很容易，適合練手：

John,iPhone Cover,9.99
John,Headphones,5.49
Jack,iPhone Cover,9.99
Jill,Samsung Galaxy Cover,8.95
Bob,iPad Cover,5.49

第一列人名，第二列商品名，第三列價格。

每行代表一個訂單記錄,把他們複製到一個csv檔案，或者txt啥的隨意了2333，放在程式碼中的路徑下：

全部程式碼如下：

import org.apache.spark.SparkContext
import org.apache.spark.SparkContext._

object MyTest{

  def main(args: Array[String]) {

    //local[4]可以認為是把資料分為4個塊，單機的話，可以理解為放在程序的不同執行緒下
    //這樣就可以平行計算啦，sparkcontext可以認為是一個必備的初始化。
    val sc = new SparkContext("local[4]", "My Test Code")
    
    //這句話是把資料讀入，然後轉化成一個三元組的資料格式。
    //testFile是通過剛剛初始化的sc讀取相應資料，=>可以認為是一個函式，左邊代表輸入，右邊表
    //對輸入進行這樣的操作，map的意思就是對所有輸入都進行這樣的操作。
    //第二行翻譯過來就是，以“，”位分割符，把每一行分隔成字串。
    //同理，第三行翻譯過來就是，把第一列，第二列，第三列打包成一個元組。
    val data = sc.textFile("./src/main/scala/ma/purchas.csv")
      .map(line => line.split(","))
      .map(purchaseRecord => (purchaseRecord(0), purchaseRecord(1), purchaseRecord(2)))

    //這裡就是簡單的計數，統計一共有多少條，這句話是計算訂單總數的
    val numPurchases = data.count()

    //case是scala語言模式匹配的關鍵字，意思是符合(user, product, price)這樣條目，轉化為user，
    //然後去重，最後計數，這句話是計算有多少不同使用者的。
    val uniqueUsers = data.map { case (user, product, price) => user }.distinct().count()

    //這裡多了一個price.toDouble,就是轉化為浮點數啦，因為後面要求平均，為了精確，這句話是計算總        
    //收入的
    val totalRevenue = data.map { case (user, product, price) => price.toDouble }.sum()

    //z這一句比較酸爽23333，功能是要計算最暢銷的產品,
    //首先map一行，就是把匹配的元素，轉化為後面的形式，包括產品名和1，因為每個訂單代表購買一次嘛
    //resuceByKey，就是把上一步map的key-value值，通過key相加，也就是這個產品有幾個訂單，value
    //就是幾啦

    //collect，庫函式，返回所有元素
    //sortBy函式說白了就是根據括號裡的要求排序23333，所以括號裡面-_._2是啥？2333
    //-號代表取負值，作用後面再說
    //第一個_代表上一步collect返回的資料集合
    //後面._2是個語法糖，代表上一步RDD第二列的元素，233333
    //所以前面-可以把大正值變成負值返回，從而可以從大到小排序，因為越大正數對應的負值越小嘛。
    val productsByPopularity = data
      .map { case (user, product, price) => (product, 1) }
      .reduceByKey(_ + _)
      .collect()
      .sortBy(-_._2)
    
    println("Total purchases: " + numPurchases)
    println("Unique users: " + uniqueUsers)
    println("Total revenue: " + totalRevenue)
    println("Most popular product: %s with %d purchases".format(productsByPopularity(0)._1, productsByPopularity(0)._2))

    sc.stop()
  }

Scala版Spark簡單商品統計程式教程--逐行精講

題目是給一點點資料，統計總營業額，最受歡迎的商品啥的，很容易，適合練手： John,iPhone Cover,9.99 John,Headphones,5.49 Jack,iPhone Cover,9.99 Jill,Samsung Galaxy Cover,8.95 Bob,iPad Cove

樹莓派跑一個簡單c++小程式教程

我用的是樹莓派3代b型，所使用的是Debian系統的衍生系統raspbian(對系統不太瞭解不清楚)。樹莓派開發c++程式需要的工具有編輯器vim,偵錯程式gdb,編譯器gcc或者g++.（大神飄過就行~~ 記錄一下）用紅筆塗得地方是我命令敲錯的地方，大家忽略就行。安裝vim 執行

shell程式之逐行讀取一檔案中的引數且使用此引數每次執行5分鐘

/********************************************************************* * Author : Samson * Date : 04/18/2014 * Test platform: *

微信小程式開發全案精講-劉剛-專題視訊課程

微信小程式開發全案精講—4467人已學習課程介紹微信小程式開發全案精講是一套以案例為主線的課程，課程總共九章，第一章回顧基礎知識，後面八章全部是以典型的案例作為講解，選取了美食類：仿菜譜精靈微信小程式、資訊類：仿今日頭條微信小程式、生鮮類：仿愛鮮蜂微信小程式

好程式設計師web前端精講 web前端三要素

web前端就業前景十分廣闊，吸引了行裡行外無數的小夥伴入坑求學。好程式設計師今日開講，解析web前端三要素，無論是小白上路還是技術

8千字乾貨教程|java反射精講

# java反射機制精講 # 目錄 **1. 反射機制的概念** **2. 反射的基礎Class類** **3. 反射的用法** **4. 反射的應用示例** 作者簡介：全棧學習筆記，一個正在努力的人 ## 反射機制的概念：在執行狀態中，對於任意一個類，都能夠獲取到這個類的所有屬性和方法，對於任意一個物

Spark WordCount簡單案例（java,scala版）

Spark 是什麼？官方文件解釋：Apache Spark™ is a fast and general engine for large-scale data processing.通俗的理解：Spark是基於記憶體計算的大資料平行計算框架。Spark基於記憶體計算，提高了

spark HelloWorld程序（scala版）

special hide dst tproxy top targe 提取 main read 使用本地模式，不需要安裝spark，引入相關JAR包即可： <dependency> <groupId>or

學習Scala 進擊大資料Spark生態圈進擊Spark生態圈必備視訊教程

大資料如火如荼，如果你想深入學習大資料，Scala是你必學必會的內容，這將是你成為“高薪”程式設計師的起點，關於Scala的介紹、課程很多，但能做到如此聚焦生產真實應用的課程鳳毛麟角，所以，你千萬不能錯過 ----------------------課程目錄---------------

Spark Streaming狀態管理函式（二）——updateStateByKey的使用（scala版）

updateStateByKey的使用關於updateStateByKey 注意事項示例程式碼執行結論關於updateStateByKey 1.重點：首先會以DStream中的資料進行按key做reduce操作，然

Spark Streaming狀態管理函式（三）——MapWithState的使用（scala版）

MapWithState 關於mapWithState 注意事項示例程式碼執行結論關於mapWithState 需要自己寫一個匿名函式func來實現自己想要的功能。如果有初始化的值得需要，可以使用initia

spark的JDBC連線池（Scala版）

一個Scala版的連線池，並在使用Spark Streaming進行Word Count時，把每批資料都存到mySql中 import java.sql.{Connection, DriverManager} import java.util object J

微信小程式教程（搭建簡單的小程式示例）

微信小程式是一個挺神奇的存在，它的出現使app不是那麼的友好了，還要下載還要更新，但是小程式就不是了，就內嵌在微信裡，隨時用，不用下載（其實就相當於載入到本地，不過佔用記憶體很小），微信伺服器一更新就好了，這樣多方便，小程式我剛開始接觸還是蠻暈的，和正常的套路不太一樣，不過它的js和vue,

使用scala編寫一個簡單例項到spark叢集執行

實際工作上很少在虛擬機器上直接使用spark-shell去編寫程式，更多的是在IDEA等編輯器上將寫好的程式打包，使用spark-submit提交到叢集上去執行。我們使用scala去編寫程式，不會的自己百度學下，不解釋。 1，安裝jdk 因為scala也是執行在

操作Windows登錄檔的簡單的Python程式製作教程

轉載：https://www.jb51.net/article/63644.htm 通過Python操作登錄檔有兩種方式，第一種是通過Python的內建模組 _winreg；另一種方式就是Win32 Extension For Python 的win32api模組，但是需要進行額外的安裝。這裡主

spark中各種transformation運算元操作（scala版）

package cn.spark.study.core import org.apache.spark.SparkConf import org.apache.spark.SparkContext

JProfiler入門教程-簡單的java程式效能調優

推薦文章：JProfiler 入門教程一、安裝JProfiler 從http://www.ej-technologies.com/下載5.1.2並申請試用序列號二、主要功能簡介 1．記憶體剖析 Memory profiler JPr

ubuntu 14.04 下單機安裝 hadoop 2.7.2+scala 2.11.8+spark 2.0偽分散式教程

一.安裝java 將java下載後手動解壓到/home/che資料夾下（可採用右擊壓縮包，單擊“提取”）在終端（可用Ctrl+Alt+T快捷鍵開啟）中輸入： sudo gedit /etc/profile 在開啟的文字中新增： expor

Spark程式設計環境搭建（基於Intellij IDEA的Ultimate版本）（包含Java和Scala版的WordCount）（博主強烈推薦)

　　為什麼，我要在這裡提出要用Ultimate版本。基於Intellij IDEA搭建Spark開發環境搭——參考文件操作步驟　　a)建立maven 專案　　b)引入依賴（Spark 依賴、打包外掛等等）基於Intellij

使用idea和maven開發和打包scala和spark程式

使用idea構建maven管理的scala和spark程式，預設已經裝好了idea、scala並在idea中安裝了scala外掛。一、新建Maven專案開啟idea，點選File—New—Project，彈出如下介面，選擇Maven專案，檢視是否是正確的JDK配置項正常來說這

Scala版Spark簡單商品統計程式教程--逐行精講

相關推薦