spark高階資料分析系列之第三章音樂推薦和 Audioscrobbler 資料集

阿新 • • 發佈：2019-01-07

3.1資料集和整體思路

資料集
本章實現的是歌曲推薦，使用的是ALS演算法，ALS是spark.mllib中唯一的推薦演算法，因為只有ALS演算法可以進行並行運算。

使用資料集在這裡，裡面包含該三個檔案：
表一：user_artist_data.txt   包含該的是（使用者ID、歌曲ID、使用者聽的次數）

表二：artist_data.txt   這個檔案包含的是（歌曲ID，歌曲名字）

表三：artist_alias.txt   輸入錯誤，或者不同某種原因，同一首歌曲可能具有不同ID，這個是歌曲勘誤表（bad_id, good_id）

程式結構
第一步：對資料進行資料清理
        ALS要求輸入的資料格式是（使用者、產品、值），在本實驗中就是（使用者ID、歌曲ID、播放次數），也就是第一個檔案user_artist_data.txt中的資料，但由於輸入錯誤或者別的原因同一首歌曲有多個ID號，需要把一首歌曲的不同ID合併成一個ID（通過第三個檔案artist_alias.txt）。表三artist_alias.txt檔案中第一列是歌曲錯誤的ID，第二列是真正的ID，所以在把表一的歌曲ID通過表三來修正。同時表一中存在資料缺失，需要進行缺失處理。最後把資料結構化為（使用者ID、歌曲ID、播放次數）

第二步：把資料傳給ALS進行訓練，並進行預測
       ALS接收到的資料（使用者ID、歌曲ID、播放次數）轉換為表格形式：
        每一行代表一個使用者，每一列代表代表一首歌曲，表格資料是使用者播放次數。由於一個使用者所聽的歌曲很有限，所以該表格是一個稀疏矩陣。ALS的做法是，把該矩陣轉化為兩個矩陣的相乘
        X矩陣是（使用者ID-特徵）矩陣，k值可以自己給定。Y矩陣是（歌曲ID-特徵）矩陣，k值可以自己給定。這樣處理就可以把稀疏矩陣轉換為兩個矩陣，k代表著特徵個數，本節使用的是10。
       現在的問題是如何得到這兩個矩陣X和Y，使用的是交替最小二乘推薦演算法。基本思想是：要同時確定XY很難，但如果確定一個X，求Y是很簡單的。所以就隨機給定一個Y，求得最佳X，再反過來求最佳Y，不斷重複。隨機確定矩陣Y之後，就可以在給定 A 和 Y 的條件下求出 X 的最優解。

       實際上 X 的每一行可以分開計算,所以我們可以將其並行化,而並行化是大規模計算的一大優點。

       要想兩邊精確相等是不可能的,因此實際的目標是最小化，但實際中是不會求矩陣的逆，是通過QR分解之類的方法求得。

3.2程式走讀

準備資料
為了保證記憶體充足，在啟動 spark-shell 時需求指定引數 --driver-memory 6g。
讀取資料
val rawUserArtistData =sc.textFile("/home/sam/下載/profiledata_06-May-2005/user_artist_data.txt")
val rawArtistData =sc.textFile("/home/sam/下載/profiledata_06-May-2005/artist_data.txt")
val rawArtistAlias =sc.textFile("/home/sam/下載/profiledata_06-May-2005/artist_alias.txt") 
ALS 演算法實現有一個小缺點:它要求使用者和產品的 ID 必須是數值型,並且是 32 位非負整數，需要對資料進行範圍檢查，得到最大值是 2443548 和 10794401，滿足要求
rawUserArtistData.map(_.split(' ')(0).toDouble).stats()   //stats方法會返回每一列的最大值，最小值，均值、方差、總數等
rawUserArtistData.map(_.split(' ')(1).toDouble).stats()
資料的缺失值處理，把空值和異常值用None代替
val artistByID = rawArtistData.flatMap { line =>          
    val (id, name) = line.span(_ != '\t')
    if (name.isEmpty) {
        None
    } else {
        try {
            Some((id.toInt, name.trim))
        } catch {
            case e: NumberFormatException => None
        }
    }
 }
把空值用None代替，同事把字串型別轉為int
val artistAlias = rawArtistAlias.flatMap{ line =>        
 val tokens = line.split('\t')
    if (tokens(0).isEmpty) {
        None
    } else {
        Some((tokens(0).toInt, tokens(1).toInt))
    }
}.collectAsMap()
構建模型
把相關的依賴包匯入
把表三的（bad_id,good_id）作為廣播變數，廣播變數會緩衝到每臺機器中，而不是每個任務中（每臺機器中有多個任務）。因為每個任務都需要訪問artistAlias，如果直接就傳遞過去，每個任務中都儲存一份副本，會增加儲存容量。Spark還使用高效的廣播演算法來分發變數，進而減少通訊的開銷。
然後把表一資料轉換為ALS模型需要的rating型別資料，同時把歌曲ID和表三對照更改歌曲ID。
import org.apache.spark.mllib.recommendation._   

val bArtistAlias = sc.broadcast(artistAlias)

//整合訓練資料
val trainData = rawUserArtistData.map { line =>
    val Array(userID, artistID, count) = line.split(' ').map(_.toInt)
    val finalArtistID =
    bArtistAlias.value.getOrElse(artistID, artistID)                //把bad_id替換成good_id
    Rating(userID, finalArtistID, count)
}.cache()
搭建模型
val model = ALS.trainImplicit(trainData, 10, 5, 0.01, 1.0)    
模型的引數含義
• rank = 10
模型的潛在因素的個數k,即“使用者 - 特徵”和“產品 - 特徵”矩陣的列數;一般來說,它也是矩陣的階。
• iterations = 5
矩陣分解迭代的次數;迭代的次數越多,花費的時間越長,但分解的結果可能會更好。
• lambda = 0.01
標準的過擬合引數;值越大越不容易產生過擬合,但值太大會降低分解的準確度。
• alpha = 1.0
控制矩陣分解時,被觀察到的“使用者 - 產品”互動相對沒被觀察到的互動的權重。

檢視結果

首先檢視使用者2093760所聽過的歌曲
val rawArtistsForUser = rawUserArtistData.map(_.split(' ')).

filter { case Array(user,_,_) => user.toInt == 2093760 }   //找出ID為2093760的資料

val existingProducts =rawArtistsForUser.map {               //把歌曲的ID號轉為int型
    case Array(_,artist,_) => artist.toInt 
    }.collect().toSet 

artistByID.filter { case (id, name) =>                                  //根據表二列印歌曲名
    existingProducts.contains(id)
    }.values.collect().foreach(println)
利用剛剛訓練好的模型給2093760使用者推薦5首歌曲
val recommendations = model.recommendProducts(2093760, 5)
輸出結果是
Rating(2093760,1300642,0.02833118412903932)
Rating(2093760,2814,0.027832682960168387)
Rating(2093760,1037970,0.02726611004625264)
Rating(2093760,1001819,0.02716011293509426)
Rating(2093760,4605,0.027118271894797333)

結果中最後的得分並不是概率，分數越高代表使用者越喜歡。
然後把歌曲ID轉為所對應的歌曲名並列印
artistByID.filter { case (id, name) =>
        recommendedProductIDs.contains(id)
}.values.collect().foreach(println)
輸出結果是
Green Day
Linkin Park
Metallica
My Chemical Romance
System of a Down

模型的評估

模型的評估主要是通過AUC曲線來反映，AUC的具體內容這裡就不介紹了。

先把資料集劃分為訓練資料和測試資料

val Array(trainData, cvData) = allData.randomSplit(Array(0.9, 0.1))

訓練模型

val allItemIDs = allData.map(_.product).distinct().collect() 
val bAllItemIDs = sc.broadcast(allItemIDs)
val model = ALS.trainImplicit(trainData, 10, 5, 0.01, 1.0)

評估模型

val auc = areaUnderCurve(cvData, bAllItemIDs, model.predict)   //該函式附錄中給出

附錄：

def areaUnderCurve(
      positiveData: DataFrame,
      bAllArtistIDs: Broadcast[Array[Int]],
      predictFunction: (DataFrame => DataFrame)): Double = {

    // What this actually computes is AUC, per user. The result is actually something
    // that might be called "mean AUC".

    // Take held-out data as the "positive".
    // Make predictions for each of them, including a numeric score
    val positivePredictions = predictFunction(positiveData.select("user", "artist")).
      withColumnRenamed("prediction", "positivePrediction")

    // BinaryClassificationMetrics.areaUnderROC is not used here since there are really lots of
    // small AUC problems, and it would be inefficient, when a direct computation is available.

    // Create a set of "negative" products for each user. These are randomly chosen
    // from among all of the other artists, excluding those that are "positive" for the user.
    val negativeData = positiveData.select("user", "artist").as[(Int,Int)].
      groupByKey { case (user, _) => user }.
      flatMapGroups { case (userID, userIDAndPosArtistIDs) =>
        val random = new Random()
        val posItemIDSet = userIDAndPosArtistIDs.map { case (_, artist) => artist }.toSet
        val negative = new ArrayBuffer[Int]()
        val allArtistIDs = bAllArtistIDs.value
        var i = 0
        // Make at most one pass over all artists to avoid an infinite loop.
        // Also stop when number of negative equals positive set size
        while (i < allArtistIDs.length && negative.size < posItemIDSet.size) {
          val artistID = allArtistIDs(random.nextInt(allArtistIDs.length))
          // Only add new distinct IDs
          if (!posItemIDSet.contains(artistID)) {
            negative += artistID
          }
          i += 1
        }
        // Return the set with user ID added back
        negative.map(artistID => (userID, artistID))
      }.toDF("user", "artist")

    // Make predictions on the rest:
    val negativePredictions = predictFunction(negativeData).
      withColumnRenamed("prediction", "negativePrediction")

    // Join positive predictions to negative predictions by user, only.
    // This will result in a row for every possible pairing of positive and negative
    // predictions within each user.
    val joinedPredictions = positivePredictions.join(negativePredictions, "user").
      select("user", "positivePrediction", "negativePrediction").cache()

    // Count the number of pairs per user
    val allCounts = joinedPredictions.
      groupBy("user").agg(count(lit("1")).as("total")).
      select("user", "total")
    // Count the number of correctly ordered pairs per user
    val correctCounts = joinedPredictions.
      filter($"positivePrediction" > $"negativePrediction").
      groupBy("user").agg(count("user").as("correct")).
      select("user", "correct")

    // Combine these, compute their ratio, and average over all users
    val meanAUC = allCounts.join(correctCounts, "user").
      select($"user", ($"correct" / $"total").as("auc")).
      agg(mean("auc")).
      as[Double].first()

    joinedPredictions.unpersist()

    meanAUC
  }

spark高階資料分析系列之第三章音樂推薦和 Audioscrobbler 資料集

3.1資料集和整體思路資料集本章實現的是歌曲推薦，使用的是ALS演算法，ALS是spark.mllib中唯一的推薦演算法，因為只有ALS演算法可以進行並行運算。使用資料集在這裡，裡面包含該三個檔案：表一：user_artist_data.txt 包含該的是（使用者ID、歌

精益資料分析讀書筆記——第三章-你把生命獻給誰

精益畫布精益畫布是呈現在一張紙上的視覺化簡明商業企劃書。似乎可以參考這個思路做產品分析 1.問題提出三個你認為該產品解決的最核心的痛點，從而提出該產品的商業目標。例如摩拜解決的主要問題就是近距離的通行問題，打車貴，開車麻煩，走路又遠。自己騎自行車維護管

spark高階資料分析系列之第二章用 Scala 和 Spark 進行資料分析

2.1資料科學家的Scala spark是用scala語言編寫的，使用scala語言進行大資料開發的好處有 1、效能開銷小減少不同環境下傳遞程式碼和資料的錯誤和效能開銷 2、能用上最新的版

UNIX環境高階程式設計習題之第三章第二題

不呼叫fcntl函式實現dup2函式問題描述 dup2函式頭定義為int dup2(int fd, int fd2)，返回值為fd2指定的檔案描述符，指向fd指向的檔案，如果fd2已經開啟，則需先關閉；如果fd == fd2，則無需關閉fd2

sql 語句系列(多表之鏈)[八百章之第三章]

### 新增連線查詢而不影響其他連線查詢請看圖: ![](https://img2020.cnblogs.com/blog/1289794/202003/1289794-20200322224315615-1346978573.png) 這種情況我們一般會使用左連線的方式。 ``` select e.E

（轉）Django學習之第三章：動態Web頁面基礎

只有一個即使 typeerror 方法對象傳遞 power int() 擔心意圖上一章我們解釋了怎樣開始一個Django項目和運行Django服務器當然了，這個站點實際上什麽也沒有做------除了顯示了"It worked"這條信息以外。這一章我們介紹怎樣使用

《零壓力學Python》之第三章知識點歸納

創建溫度取字符串語句內置函數 idl 編程 inpu 多個參數第三章(第一個程序)知識點歸納編程猶如寫劇本。Python函數與劇本差別不大，你可以反復調用函數，而它每次都執行預定的“腳本”（腳本也可以指整個程序）。在Python I

爬蟲系列之第3章-Selenium模塊

== .com global 額外 position 安裝路徑 github 例如 off 簡介 selenium最初是一個自動化測試工具,而爬蟲中使用它主要是為了解決requests無法直接執行JavaScript代碼的問題 selenium本質是通過驅動瀏覽器，完全模

爬蟲系列之第2章-BS&Xpath模塊

rom 相對簡單的 ins spa 官網 get 字典類型一、BeautifulSoup BeautifulSoup簡介簡單來說，Beautiful Soup是python的一個庫，最主要的功能是從網頁抓取數據。官方解釋如下： Beautiful Sou

Introduction to 3D Game Programming with DirectX 12 學習筆記之 --- 第三章：變換

學習目標理解如何用矩陣表示線性變換和仿射變換；學習在座標系中縮放，旋轉和移動幾何體；學習利用矩陣的乘法合併幾個變換矩陣；學習如何在座標系之間轉換，並且表示為轉換矩陣；斜體樣式學習如何利用DirectX Math庫提供的方法構造轉換矩陣。

《惡意程式碼分析實戰》--第三章：動態基礎分析

一、虛擬網路環境配置配置環境：伺服器端kali2.0 客戶端win7 1、配置inetsim kali自帶inetsim，因此只需配置就可以了（但是好像不配置也是可以的……）配置連結：http://www.cnblogs.com/hyq20135317/p/5515675.h

第三章————用SQL語句操作資料

第三章————用SQL語句操作資料 *********************新增**************************** 1. insert into 表名(列名1,列名2...) values(列1的值,列2的值...) !!!注意： 1)字串型別，

卜若的程式碼筆記系列-Web系列-SpringBoot-第三章：Maven(主要是idea裡面的，但是maven的普適eclipse等ide)-3202

1.配置jdk 要點：預設安裝（除非你是大佬），配置java_home 配置path： 2.配置maven 3.配置IDEA IDEA去官網上下載一下 http://www.jetbrains.com/idea/download/#secti

Java學習之第三章——面向物件程式設計

學習面向物件(OOP)內容的三條主線 1.java類及類的成員 2.面向物件的三大特徵（封裝 Encapsulation,繼承 Inheritance,多型 Polymorphism） 3.其他關鍵字 OOP:Object Oriented Programming

精益資料分析讀書筆記——第四章-以資料為嚮導與通過資料獲取資訊

這章沒太看懂……以後回頭再看濫用資料容易導致區域性優化，進而忽視大局，這是極其危險乃至致命的。人類提供靈感，機器負責驗證數學在優化已知系統方向可以做的很好，而人類更善於發現新的系統。換言之，漸進式的改變可以達到區域性極限，創新則可能導致全域性洗牌。 #資料

精益資料分析讀書筆記——第五章-資料分析框架

戴夫·麥克盧爾的海盜指標說——AARRR 獲取使用者（Acquisition）、提高活躍度（Activation）、提高留存率（Retention）、獲取營收（Revenue）、自傳播（Referral）要素功用相關指標方式獲取使用者

Storm入門之第三章拓撲

在這一章，你將學到如何在同一個Storm拓撲結構內的不同元件之間傳遞元組，以及如何向一個執行中的Storm叢集釋出一個拓撲。資料流組設計一個拓撲時，你要做的最重要的事情之一就是定義如何在各元件之間交換資料（資料流是如何被bolts消費的）。一個資料流組指定了每個bolt會消費哪些資料流，

python cookbook 學習筆記第三章數字日期和時間(9) 大型資料運算

大型資料運算 -問題：需要在大資料集(比如陣列或網路)上面執行計算。解決方案：涉及到陣列的重量級運算，可以使用 Numpy 庫。Numpy 的一個主要特徵是他會給 Python 提供一個數組物件，相比標準的 Python 列表更適合用來做數學運

Netty原始碼分析第7章(編碼器和寫資料)---->第2節: MessageToByteEncoder

Netty原始碼分析第七章: Netty原始碼分析第二節: MessageToByteEncoder 同解碼器一樣, 編碼器中也有一個抽象類叫MessageToByteEncoder, 其中定義了編碼器的骨架方法, 具體編碼邏輯交給子類實現解碼器同樣也

Netty原始碼分析第7章(編碼器和寫資料)---->第4節: 重新整理buffer佇列

Netty原始碼分析第七章: 編碼器和寫資料第四節: 重新整理buffer佇列上一小節學習了writeAndFlush的write方法, 這一小節我們剖析flush方法通過前面的學習我們知道, flush方法通過事件傳遞, 最終會傳遞到HeadCon

spark高階資料分析系列之第三章音樂推薦和 Audioscrobbler 資料集

3.1資料集和整體思路

資料集

程式結構

3.2程式走讀

準備資料

構建模型

檢視結果

模型的評估

相關推薦