SparkML之推薦引擎（二）—— 推薦模型評估

阿新 • • 發佈：2018-11-09

本文內容和程式碼是接著上篇文章來寫的，推薦先看一下哈~
我們上一篇文章是寫了電影推薦的實現，但是推薦內容是否合理呢，這就需要我們對模型進行評估
針對推薦模型，這裡根據 均方差 和 K值平均準確率 來對模型進行評估，MLlib也對這幾種評估方法都有提供內建的函式

在真實情況下，是要不斷地對推薦模型的三個關鍵引數 rank、iterations、lambda 分別選取不同的值，然後對不同引數生成的模型進行評估，從而選取出最好的模型。

下面就對兩種推薦模型評估的方法進行說明~

1、均方差（MSE）和均方根誤差（RMSE）

定義：各平方誤差的和與總數目的商。其實可以理解為預測到的評級與真實評級的差值的平方。
均方根誤差的使用也很普遍，其計算只需在MSE上取平方根即可~

評估程式碼為：

//格式：(userID，電影)
val userProducts: RDD[(Int, Int)] = ratings.map(rating => (rating.user, rating.product))
//模型推測出的評分資訊，格式為：((userID，電影), 推測評分)
val predictions: RDD[((Int, Int), Double)] = model.predict(userProducts).map(rating => ((rating.user, rating.product),rating.rating))
//格式為：((userID，電影), (真實平評分，推測評分))
val ratingsAndPredictions: RDD[((Int, Int), (Double, Double))] = ratings.map 
(rating => ((rating.user, rating.product), rating.rating))
                                                                        .join(predictions)
//均方差
val MSE = ratingsAndPredictions.map(rap => math.pow(rap._2._1 - rap._2._2, 2)).reduce(_+_) / ratingsAndPredictions.count()
println("MSE：" + MSE)
//均方根誤差
val RMSE: Double = math.sqrt 
(MSE)
println("RMSE：" + RMSE)

上面是我們自己算出來的，也可以用MLlib內建的函式來算：

import org.apache.spark.mllib.evaluation.{RegressionMetrics, RankingMetrics}
val predictedAndTrue: RDD[(Double, Double)] = ratingsAndPredictions.map{ case((userID, product),(actual, predict)) => (actual, predict)}
val regressionMetrics: RegressionMetrics = new RegressionMetrics(predictedAndTrue)
println("MSE：" + regressionMetrics.meanSquaredError)
println("RMSE：" + regressionMetrics.rootMeanSquaredError)

輸出為：

MSE：0.08231947642632852
RMSE：0.2869137090247319

2、K值平均準確率（MAPK）

K值平均準確率（MAPK）的意思是整個資料集上的K值平均準確率（APK）的均值。APK是資訊檢索中常用的一個指標。它用於衡量針對某個查詢所返回的“前K個”文件的平均相關性。
如果結果中文件的實際相關性越高且排名也更靠前，那APK分值也就越高。如果在預測結果中得分更高（在推薦列表中排名也更靠前）的物品實際上也與使用者更相關，那自然這個模型就更好。

ok，MAPK評估程式碼如下：

package ml

import org.apache.spark.mllib.evaluation.RankingMetrics
import org.apache.spark.mllib.recommendation.{Rating, ALS}
import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkContext, SparkConf}
import org.jblas.DoubleMatrix
import sql.StreamingExamples
import scala.collection.Map

object MAPKTest{
  def main(args: Array[String]) {
    StreamingExamples.setStreamingLogLevels()
    val conf = new SparkConf().setAppName("MAPKTest").setMaster("local[*]")
    val sc = new SparkContext(conf)
    /*使用者 電影 評分*/
    val rawData: RDD[String] = sc.textFile("file:///E:/spark/ml-100k/u.data")
    //去掉時間的欄位，rawRatings:Array
    val rawRatings = rawData.map(_.split("\\t").take(3))
    //user moive rating
    val ratings = rawRatings.map{case Array(user, movie, rating) =>{
      Rating(user.toInt, movie.toInt, rating.toDouble)
    }}
    /**
      * 得到訓練的模型
      * 注意：50代表我們得到的模型的因子的列的數量，名稱叫 因子維數
      */
    val model = ALS.train(ratings, 50, 10, 0.01)

    /*獲取模型中所有商品的 factor，並轉換成矩陣*/
    val itemFactors: Array[Array[Double]] = model.productFeatures.map{case (id, factor) => factor}.collect()
    val itemMatrix: DoubleMatrix = new DoubleMatrix(itemFactors)
//    println(itemMatrix.rows, itemMatrix.columns)

    /*獲得模型中每個使用者對應的每個電影的評分*/
    val allRecs = model.userFeatures.map{ case(userId, factor) => {
      val userVector = new DoubleMatrix(factor)
      /**
        * socres是一個DoubleMatrix型別，值為1行N列的 Vector
        * 為什麼可以通過判斷這兩個矩陣的乘積的大小，從而來判斷分數呢？
        * 這歸根於ALS演算法，該演算法是將一個 使用者-商品 的矩陣 拆分成 使用者、商品兩個矩陣
        * 因此這兩個矩陣的乘積就是實際的 分數
        */
      val scores = itemMatrix.mmul(userVector)//矩陣和向量的乘積，求出每個使用者的分數
      //根據評分倒數排序
      val sortedWithId = scores.data.zipWithIndex.sortBy(-_._1)
      //(score, itemId)
      val recommendIds = sortedWithId.map(_._2 + 1).toSeq
      //返回使用者 和 各個商品評分的倒數的值 的 tuple: (userId,(sorce, itemId))
      (userId, recommendIds)
    }}

    /*獲取實際中的 每個使用者對應的有評分過的電影的評分*/
    val userMoives: RDD[(Int, Iterable[(Int, Int)])] = ratings.map{ case Rating(user, product, rating) => {
      (user, product)
    }}.groupBy(_._1)

    val predictedAndTrueForRanking = allRecs.join(userMoives).map{ case( userId, (predicted, actualWithIds) ) => {
      //實際的商品編號
      val actual = actualWithIds.map(_._2)
      (actual.toArray, predicted.toArray)
    }}
    val rankingMetrics: RankingMetrics[Int] = new RankingMetrics(predictedAndTrueForRanking)
    println("使用內建的計算MAP：" + rankingMetrics.meanAveragePrecision)
  }
}

輸出結果為：

使用內建的計算MAP：0.0630466936422453

3、推薦模型完整程式碼

package ml

import org.apache.spark.mllib.evaluation.{RegressionMetrics, RankingMetrics}
import org.apache.spark.mllib.recommendation.{Rating, ALS}
import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkContext, SparkConf}
import org.jblas.DoubleMatrix
import sql.StreamingExamples
import scala.collection.Map

/**
  * 基於Spark MLlib 的推薦演算法
  * ALS：最小二乘法
  *
  * @author lwj
  * @date 2018/05/04
  */
object Recommend{
  /**
    * 用於商品推薦
    * 通過傳入兩個向量，返回這兩個向量之間的餘弦相似度
    *
    * @param vec1
    * @param vec2
    * @return
    */
  def cosineSimilarity(vec1: DoubleMatrix, vec2: DoubleMatrix): Double = {
    vec1.dot(vec2) / (vec1.norm2() * vec2.norm2())
  }

  /**
    * 模型評估
    * K值平均準確率(APK)
    *
    * @param actual
    * @param predicted
    * @param k
    * @return
    */
  def avgPrecisionK(actual: Seq[Int], predicted: Seq[Int], k: Int) : Double = {
    val predK: Seq[Int] = predicted.take(k)
    var score = 0.0
    var numHits = 0.0
    for ((p, i) <- predK.zipWithIndex){
      if (actual.contains(p)){
        numHits += 1.0
        score += numHits / (i.toDouble + 1.0) //TODO 為什麼除以i.toDouble
      }
    }
    if (actual.isEmpty){
      1.0
    }else{
      score / math.min(actual.size, k).toDouble //TODO 為什麼是min
    }
  }


  def main(args: Array[String]) {
    StreamingExamples.setStreamingLogLevels()
    val conf = new SparkConf().setAppName("recommandTest").setMaster("local[*]")
    val sc = new SparkContext(conf)
    /*使用者 電影 評分*/
    val rawData: RDD[String] = sc.textFile("file:///E:/spark/ml-100k/u.data")
    //去掉時間的欄位，rawRatings:Array
    val rawRatings = rawData.map(_.split("\\t").take(3))
    //user moive rating
    val ratings = rawRatings.map{case Array(user, movie, rating) =>{
      Rating(user.toInt, movie.toInt, rating.toDouble)
    }}
    //電影
    val movies: RDD[String] = sc.textFile("file:///E:/spark/ml-100k/u.item")
    //電影ID 電影名
    val titles: Map[Int, String] = movies.map(_.split("\\|").take(2)).map(array => (array(0).toInt, array(1))).collectAsMap()
    /**
      * 得到訓練的模型
      * 注意：50代表我們得到的模型的因子的列的數量，名稱叫 因子維數
      */
    val model = ALS.train(ratings, 50, 10, 0.01)

    /**
      * 基於使用者進行推薦
      */
    //使用者因子的數量
    //  println(mode.userFeatures.count())
    //商品因子的數量
    //  println(mode.productFeatures.count())
    //檢視某個使用者對某個商品的預測評分，ALS模型的初始化是隨機的，所以產生的結果可能會不同
    //  println(mode.predict(789, 123))

    //為指定的使用者推薦 N 個商品
    val userID = 789
    val K = 10
    val topKRecs: Array[Rating] = model.recommendProducts(userID, 10)
    //  println(topKRecs.mkString("\n"))

    //獲取指定使用者所評價過的電影
    val moviesForUser: Seq[Rating] = ratings.keyBy(_.user).lookup(789)

    //打印出指定使用者評價最高的10部電影的名稱和評分
    println("真實的：")
    moviesForUser.sortBy(-_.rating).take(10).map(rating => {
      (titles(rating.product),rating.rating)
    }).foreach(println)

    //打印出推薦給使用者的10部電影的名稱和評分，和上面的進行比較
    println("推薦的：")
    topKRecs.map(rating => {
      (titles(rating.product),rating.rating)
    }).foreach(println)


    println("\n-----------------------\n")

    /**
      * 基於商品進行推薦
      */
    /*通過商品ID獲得與該商品相似的商品*/
    val itemId = 567
    val itemFactor: Array[Double] = model.productFeatures.lookup(itemId).head
    val itemVector: DoubleMatrix = new DoubleMatrix(itemFactor)
    //獲得每個商品與給出的商品的餘弦相似度
    val sims = model.productFeatures.map{case (id, factor) => {
      val factorVector = new DoubleMatrix(factor)
      val sim = cosineSimilarity(factorVector, itemVector)
      (id, sim)
    }}
    //打印出前N的商品
    val topItem: Array[(Int, Double)] = sims.sortBy(-_._2).take(10 + 1)
    println("與567商品相似的商品：\n" + topItem.mkString("\n") + "\n")

    /*校驗商品*/
    println("給定的商品名稱為： " + titles(itemId))
    println("相似的商品名稱為：")
    topItem.slice(1, 11).foreach(item => println(titles(item._1)))


    println("\n-----------------------\n")

    /*模型評估*/
    /**
      * 均方差評估
      * 對model全量資料進行評估
      */
//    val actualRating: Rating = moviesForUser.take(1)(0)
//    val predictedRating: Double = model.predict(789, actualRating.product)
//    println("\n真實分：" + actualRating.rating + "  預測分：" + predictedRating)
    //格式：(userID，電影)
    val userProducts: RDD[(Int, Int)] = ratings.map(rating => (rating.user, rating.product))
    //模型推測出的評分資訊，格式為：((userID，電影), 推測評分)
    val predictions: RDD[((Int, Int), Double)] = model.predict(userProducts).map(rating => ((rating.user, rating.product),rating.rating))
    //格式為：((userID，電影), (真實平評分，推測評分))
    val ratingsAndPredictions: RDD[((Int, Int), (Double, Double))] = ratings.map(rating => ((rating.user, rating.product), rating.rating))
                                                                            .join(predictions)
    //均方差
    val MSE = ratingsAndPredictions.map(rap => math.pow(rap._2._1 - rap._2._2, 2)).reduce(_+_) / ratingsAndPredictions.count()
    println("均方差MSE為： " + MSE)
    //均方根誤差
    val RMSE: Double = math.sqrt(MSE)
    println("均方根誤差RMSE為： " + RMSE)

    /**
      * K值平均準確率評估
      * 注意：該評估模型是針對對使用者感興趣和回去接觸的物品的預測能力
      * 也是就是說：這時針對基於使用者推薦的 模型的評估
      */
    /*計算 單個 指定使用者推薦的APK指標*/
    val actualMovies: Seq[Int] = moviesForUser.map(_.product)
    val predictedMovies: Array[Int] = topKRecs.map(_.product)
    val apk10: Double = avgPrecisionK(actualMovies, predictedMovies, 10)
    println("789的APK值為：" + apk10)

    /*獲取模型中所有商品的 factor，並轉換成矩陣*/
    val itemFactors: Array[Array[Double]] = model.productFeatures.map{case (id, factor) => factor}.collect()
    val itemMatrix: DoubleMatrix = new DoubleMatrix(itemFactors)
//    println(itemMatrix.rows, itemMatrix.columns)

    /*獲得模型中每個使用者對應的每個電影的評分*/
    val allRecs = model.userFeatures.map{ case(userId, factor) => {
      val userVector = new DoubleMatrix(factor)
      /**
        * socres是一個DoubleMatrix型別，值為1行N列的 Vector
        * 為什麼可以通過判斷這兩個矩陣的乘積的大小，從而來判斷分數呢？
        * 這歸根於ALS演算法，該演算法是將一個 使用者-商品 的矩陣 拆分成 使用者、商品兩個矩陣
        * 因此這兩個矩陣的乘積就是實際的 分數
        */
      val scores = itemMatrix.mmul(userVector)//矩陣和向量的乘積，求出每個使用者的分數
      //根據評分倒數排序
      val sortedWithId = scores.data.zipWithIndex.sortBy(-_._1)
      //(score, itemId)
      val recommendIds = sortedWithId.map(_._2 + 1).toSeq
      //返回使用者 和 各個商品評分的倒數的值 的 tuple: (userId,(sorce, itemId))
      (userId, recommendIds)
    }}

    /*獲取實際中的 每個使用者對應的有評分過的電影的評分*/
    val userMoives: RDD[(Int, Iterable[(Int, Int)])] = ratings.map{ case Rating(user, product, rating) => {
      (user, product)
    }}.groupBy(_._1)

    val MAPK = allRecs.join(userMoives).map{ case( userId, (predicted, actualWithIds) ) => {
      //實際的商品編號
      val actual = actualWithIds.map(_._2).toSeq
      avgPrecisionK(actual, predicted, 10)
    }}.reduce(_ + _) / allRecs.count

    println("MAPK：" + MAPK)


    println("\n-----------------------\n")

    /**
      * 使用MLlib內建的評估器
      */
    /*RMSE 和 MSE*/
    val predictedAndTrue: RDD[(Double, Double)] = ratingsAndPredictions.map{ case((userID, product),(actual, predict)) => (actual, predict)}
    val regressionMetrics: RegressionMetrics = new RegressionMetrics(predictedAndTrue)
    println("使用內建的計算MSE：" + regressionMetrics.meanSquaredError)
    println("使用內建的計算RMSE：" + regressionMetrics.rootMeanSquaredError)

    /*MAPK*/
    val predictedAndTrueForRanking = allRecs.join(userMoives).map{ case( userId, (predicted, actualWithIds) ) => {
      //實際的商品編號
      val actual = actualWithIds.map(_._2)
      (actual.toArray, predicted.toArray)
    }}
    val rankingMetrics: RankingMetrics[Int] = new RankingMetrics(predictedAndTrueForRanking)
    println("使用內建的計算MAP：" + rankingMetrics.meanAveragePrecision)


  }
}

本文參考自：《Spark機器學習》和Spark官網 http://spark.apache.org/docs/1.6.3/mllib-guide.html

SparkML之推薦引擎（二）—— 推薦模型評估

本文內容和程式碼是接著上篇文章來寫的，推薦先看一下哈~ 我們上一篇文章是寫了電影推薦的實現，但是推薦內容是否合理呢，這就需要我們對模型進行評估針對推薦模型，這裡根據均方差和 K值平均準確率來對模型進行評估，MLlib也對這幾種評估方法都有提供內建的函式在真

SparkML之推薦引擎（一）—— 電影推薦

本文將使用 SparkML 來構建推薦引擎。推薦引擎演算法大致分為基於內容的過濾、協同過濾、矩陣分解，本文將使用基於屬於矩陣分解的最小二乘法演算法來構建推薦引擎。對於推薦引擎模組這裡將分為兩篇文章，第一篇文章主要是以實現推薦功能為主，第二篇文章主要是對模型進行評估

個性化推薦系統（二）---構建推薦引擎

架構商品素材業務開發 jpeg 用戶體驗 rom 機器學習微信當下推薦系統包含的層級特別的多，整個線上推薦系統包含：最上層線上推薦服務、中層各個推薦數據召回集（數據主題、分類池子）、底層各種推薦模型。推薦系統介入線上各種業務，推薦系統當下已經

電商大資料專案（二）-推薦系統實戰之實時分析以及離線分析

電商大資料專案-推薦系統實戰（一）環境搭建以及日誌，人口，商品分析http://blog.51cto.com/6989066/2325073電商大資料專案-推薦系統實戰之推薦演算法http://blog.51cto.com/6989066/2326209電商大資料專案-推薦系統實戰之實時分析以及離線分析htt

用python做推薦系統（二）

一、簡介繼上一篇基於使用者的推薦演算法，這一篇是要基於商品的，基於使用者的好處是可以根據使用者的評價記錄找出跟他興趣相似的使用者，再推薦這些使用者也喜歡的電影，但是萬一這個使用者是新使用者呢？或是他還沒有對任何電影做評價，那我們要怎麼去推薦他可能會有興趣的東西呢？這邊就是要介紹基於商品的相似度，我們開啟豆

linux：ubuntu安裝mysql（二）--推薦

1）下載mysql安裝包mysql-5.7.24-linux-glibc2.12-x86_64.tar.gz，下載地址：https://dev.mysql.com/downloads/mysql/ 2）建立合適的目錄安裝檔案下載目錄：/usr/mysqldata/softwareMysql目錄安裝位置：

基於深度學習的推薦系統（二）MLP based

在第二部分，我們總結MLP基礎上的推薦系統，我在這裡只截取了原文的一部分內容。這篇部落格中所使用的註解字元和參考文獻目錄可以在基於深度學習的推薦系統（一）Overview中找到。我們把這些工作分為如下幾部分：傳統推薦演算法的神經網路擴充套件許多現有的推薦模型

移動推薦演算法（二）：基於簡單規則的預測

本文為轉載文章，來源為： https://blog.csdn.net/Snoopy_Yuan/article/details/72850601 一直在探索資料探勘、資料建模的案例，百度搜到這篇文章，收穫頗豐，轉載以作記錄。前言：移動推薦演算法是阿里天池賽2015年賽題之

關於2015阿里移動推薦演算法大賽的總結（二）——推薦演算法

雖然開始走錯了路，但是也學到了東西，美團技術團隊的文件還是不錯的，喜歡的童鞋可以經常去瞅瞅，後面我會給連結的~~~~ —————————————————————————————————————————————————————————————— 具體流程基本流程如

爬蟲庫之BeautifulSoup學習（二）

不必要 baidu html left 官方 blank 正則文本處理比較 BeautifulSoup官方介紹文檔：https://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.html 四大對象種

CSS3學習系列之選擇器（二）

計算選擇器 sky :focus ddr gree for 指定元素學習 first-child選擇器和last-child選擇器 first-child指定第一個元素。last-child指定最後一個子元素。例如： <!DOCTYPE html>

elasticsearch index 之 create index（二）

temp fec toc 使用 con 速度 query type valid 創建索引需要創建索引並且更新集群index matedata，這一過程在MetaDataCreateIndexService的createIndex方法中完成。這裏會提交一個高優先級，Acked

MVC實戰之排球計分（二）—— 構架概要設計

eight med 語言 fusion 詳情插入數據輸出數據 one 交互界面本程序主要基於MVC4框架，使應用程序的輸入，處理和輸出強制性分開，使得軟件可維護性，可擴展性，靈活性以及封裝性得到提高， MVC應用程序分為三個核心部件：Model,View, Contr

Python學習第一章：第一次的親密接觸之初識程序（二）

inpu alt blog put 分享裏的 hello 格式 img 上次我們講到print（Hello Word）及變量的使用，下面我們繼續：比如我們想在程序中實現格式化輸出如：那麽我們我們就要進行簡單的格式化定義，一個很簡單的input語法實現，案例如下：

Java之集合初探（二）Iterator（叠代器），collections，打包/解包（裝箱拆箱），泛型(Generic)，comparable接口

基本 generate 等於框架 ring bin list() each 是否 Iterator（叠代器）所有實現了Collection接口的容器都有一個iterator方法, 用來返回一個實現了Iterator接口的對象 Iterator對象稱作叠代器, 用來

小白學習之Code First（二）

文件中 build 默認 dbm pcre student 技術分享使用類名 Code First約定：註：EDMX模板 (SSDL:存儲模型=>數據庫表 ,CSDL:概念模型=>實體,C-S模型=>存儲和概念模型之間的映射關系) System.Da

Unity3D之Mecanim動畫系統學習筆記（二）：模型導入

leg character ... sdk ocs 物體 mat 版本 sset 我們要在Unity3D中使用上模型和動畫，需要經過下面幾個階段的制作，下面以一個人形的模型開發為準來介紹。模型制作模型建模（Modelling）我們的美術在建模時一般會制作一個稱為

CLR類型設計之泛型（二）

where條件之前解釋 columns 文章閱讀 sin 自己的讀書 spl 在上一篇文章中，介紹了什麽是泛型，以及泛型和非泛型的區別，這篇文章主要講一些泛型的高級用法，泛型方法，泛型泛型接口和泛型委托，協變和逆變泛型類型參數和約束性，泛型的高

SparkML之推薦引擎（二）—— 推薦模型評估

1、均方差（MSE）和均方根誤差（RMSE）

2、K值平均準確率（MAPK）

3、推薦模型完整程式碼

SparkML之推薦引擎（二）—— 推薦模型評估

SparkML之推薦引擎（一）—— 電影推薦

個性化推薦系統（二）---構建推薦引擎

電商大資料專案（二）-推薦系統實戰之實時分析以及離線分析

用python做推薦系統（二）

linux：ubuntu安裝mysql（二）--推薦

基於深度學習的推薦系統（二）MLP based

移動推薦演算法（二）：基於簡單規則的預測

推薦系統（二） —— 利用使用者行為資料 —— 基於領域的演算法

推薦演算法（二）--演算法總結

關於2015阿里移動推薦演算法大賽的總結（二）——推薦演算法

爬蟲庫之BeautifulSoup學習（二）

CSS3學習系列之選擇器（二）

elasticsearch index 之 create index（二）

MVC實戰之排球計分（二）—— 構架概要設計

Python學習第一章：第一次的親密接觸之初識程序（二）

Java之集合初探（二）Iterator（叠代器），collections，打包/解包（裝箱拆箱），泛型(Generic)，comparable接口

小白學習之Code First（二）

Unity3D之Mecanim動畫系統學習筆記（二）：模型導入

CLR類型設計之泛型（二）

SparkML之推薦引擎（二）—— 推薦模型評估

1、均方差（MSE） 和 均方根誤差（RMSE）

2、K值平均準確率（MAPK）

3、推薦模型完整程式碼

相關推薦

1、均方差（MSE）和均方根誤差（RMSE）