基於user的推薦系統--以Mahout為例項

阿新 • • 發佈：2018-12-30

基於使用者的協同過濾是推薦系統中最古老的演算法，而且這個演算法思路也是非常直接，通過找某個user類似的user喜好進行推薦。

具體實現流程如下：

u 代表一個user ，上述流程是一個最樸素的基於使用者的推薦流程。但是這個在實際當中效率太低下，實際中的基於使用者推薦流程如下：

最主要區別就是首先先找到相似使用者集合，然後跟相似使用者集合相關的item 稱為候選集。

一個最經典的呼叫程式碼：

package recommender;

import java.io.File;
import java.util.List;

import org.apache.mahout.cf.taste.impl.model.file.FileDataModel;
import org.apache.mahout.cf.taste.impl.neighborhood.NearestNUserNeighborhood;
import org.apache.mahout.cf.taste.impl.recommender.GenericUserBasedRecommender;
import org.apache.mahout.cf.taste.impl.similarity.PearsonCorrelationSimilarity;
import org.apache.mahout.cf.taste.model.DataModel;
import org.apache.mahout.cf.taste.neighborhood.UserNeighborhood;
import org.apache.mahout.cf.taste.recommender.RecommendedItem;
import org.apache.mahout.cf.taste.recommender.Recommender;
import org.apache.mahout.cf.taste.similarity.UserSimilarity;

class RecommenderIntro {

	private RecommenderIntro() {
	}

	public static void main(String[] args) throws Exception {
		File modelFile = null;
		if (args.length > 0)
			modelFile = new File(args[0]);
		if (modelFile == null || !modelFile.exists())
			modelFile = new File("E:\\hello.txt");
		if (!modelFile.exists()) {
			System.err
					.println("Please, specify name of file, or put file 'input.csv' into current directory!");
			System.exit(1);
		}
		DataModel model = new FileDataModel(modelFile);

		UserSimilarity similarity = new PearsonCorrelationSimilarity(model);
		UserNeighborhood neighborhood = new NearestNUserNeighborhood(2,
				similarity, model);

		Recommender recommender = new GenericUserBasedRecommender(model,
				neighborhood, similarity);
		
		recommender.refresh(null);

		List<RecommendedItem> recommendations = recommender.recommend(1, 3);

		for (RecommendedItem recommendation : recommendations) {
			System.out.println(recommendation);
		}

	}

}

其中DataModel在前面博文中已經詳細介紹了，這裡不再贅述，這裡主要說下相似性衡量。

這裡用到是PearsonCorrelationSimilarity相關係數，這裡詳細介紹下這個皮爾遜相關係數。

假設有兩個變數X、Y，那麼兩變數間的皮爾遜相關係數可通過以下公式計算：

公式一：

皮爾遜相關係數計算公式

公式二：

皮爾遜相關係數計算公式

公式三：

皮爾遜相關係數計算公式

公式四：

皮爾遜相關係數計算公式

以上列出的四個公式等價，其中E是數學期望，cov表示協方差，N表示變數取值的個數。

皮爾遜相關度評價演算法首先會找出兩位評論者都曾評論過的物品，然後計算兩者的評分總和與平方和，並求得評分的乘積之各。利用上面的公式四計算出皮爾遜相關係數。

其實不同工具選擇了不同實現公式，但是原理肯定是一樣的，下面是一個python語言版本的實現。

critics = {
           'bob':{'A':5.0,'B':3.0,'C':2.5},
           'alice':{'A':5.0,'C':3.0}}
from math import sqrt

def sim_pearson(prefs, p1, p2):
    # Get the list of mutually rated items
    si = {}
    for item in prefs[p1]:
        if item in prefs[p2]:
            si[item] = 1
    print si
    # if they are no ratings in common, return 0
    if len(si) == 0:
        return 0
    # Sum calculations
    n = len(si)
    # Sums of all the preferences
    sum1 = sum([prefs[p1][it] for it in si])
    sum2 = sum([prefs[p2][it] for it in si])
    # Sums of the squares
    sum1Sq = sum([pow(prefs[p1][it], 2) for it in si])
    sum2Sq = sum([pow(prefs[p2][it], 2) for it in si])
    # Sum of the products
    pSum = sum([prefs[p1][it] * prefs[p2][it] for it in si])
    # Calculate r (Pearson score)
    num = pSum - (sum1 * sum2 / n)
    den = sqrt((sum1Sq - pow(sum1, 2) / n) * (sum2Sq - pow(sum2, 2) / n))
    if den == 0:
        return 0
    r = num / den
    return r
if __name__=="__main__":
    print critics['bob']
    print(sim_pearson(critics,'bob','alice'))

Mahout中也有類似實現如下：

package org.apache.mahout.cf.taste.impl.similarity;

import org.apache.mahout.cf.taste.common.TasteException;
import org.apache.mahout.cf.taste.common.Weighting;
import org.apache.mahout.cf.taste.model.DataModel;

import com.google.common.base.Preconditions;

/**
 * <p>
 * An implementation of the Pearson correlation. For users X and Y, the following values are calculated:
 * </p>
 *
 * <ul>
 * <li>sumX2: sum of the square of all X's preference values</li>
 * <li>sumY2: sum of the square of all Y's preference values</li>
 * <li>sumXY: sum of the product of X and Y's preference value for all items for which both X and Y express a
 * preference</li>
 * </ul>
 *
 * <p>
 * The correlation is then:
 *
 * <p>
 * {@code sumXY / sqrt(sumX2 * sumY2)}
 * </p>
 *
 * <p>
 * Note that this correlation "centers" its data, shifts the user's preference values so that each of their
 * means is 0. This is necessary to achieve expected behavior on all data sets.
 * </p>
 *
 * <p>
 * This correlation implementation is equivalent to the cosine similarity since the data it receives
 * is assumed to be centered -- mean is 0. The correlation may be interpreted as the cosine of the angle
 * between the two vectors defined by the users' preference values.
 * </p>
 *
 * <p>
 * For cosine similarity on uncentered data, see {@link UncenteredCosineSimilarity}.
 * </p> 
 */
public final class PearsonCorrelationSimilarity extends AbstractSimilarity {

  /**
   * @throws IllegalArgumentException if {@link DataModel} does not have preference values
   */
  public PearsonCorrelationSimilarity(DataModel dataModel) throws TasteException {
    this(dataModel, Weighting.UNWEIGHTED);
  }

  /**
   * @throws IllegalArgumentException if {@link DataModel} does not have preference values
   */
  public PearsonCorrelationSimilarity(DataModel dataModel, Weighting weighting) throws TasteException {
    super(dataModel, weighting, true);
    Preconditions.checkArgument(dataModel.hasPreferenceValues(), "DataModel doesn't have preference values");
  }
  
  @Override
  double computeResult(int n, double sumXY, double sumX2, double sumY2, double sumXYdiff2) {
    if (n == 0) {
      return Double.NaN;
    }
    // Note that sum of X and sum of Y don't appear here since they are assumed to be 0;
    // the data is assumed to be centered.
    double denominator = Math.sqrt(sumX2) * Math.sqrt(sumY2);
    if (denominator == 0.0) {
      // One or both parties has -all- the same ratings;
      // can't really say much similarity under this measure
      return Double.NaN;
    }
    return sumXY / denominator;
  }
  
}

看了兩個皮爾遜相關係數實現，現在來說下這個相似性度量在推薦系統中使用的問題。

先給一個實際計算例子

直觀上來看皮爾遜相關係數是不錯的，仔細分析我們可以知道這個相似性衡量的一些缺陷。

首先，皮爾遜相關係數沒有考慮兩個user Preference 重合的個數，這可能是在推薦引擎中使用的弱點，從上圖例子來說就是user1 和user5 對三個item表達了類似的Preference但是user1和user4的相似性更高，這有點反直覺的現象。

第二，如果兩個user 只對同一個item 表達了Preference，那麼這兩個user 無法計算皮爾遜相關係數，如上圖的user1 和user3。

最後，假如user5 對所有的item Preference都是3.0 ，同樣的該相似性計算是沒有定義的（參考公式4 發現分母為0）。

所以雖然很多論文都會選這個相似性衡量，但在實際當中我們需要根據業務場景進行多方面的衡量選擇相似性衡量標準。

基於user的推薦系統--以Mahout為例項

基於使用者的協同過濾是推薦系統中最古老的演算法，而且這個演算法思路也是非常直接，通過找某個user類似的user喜好進行推薦。具體實現流程如下： u 代表一個user ，上述流程是一個最樸素的基於使用者的推薦流程。但是這個在實際當中效率太低下，實際中的基於使用者推薦流程

基於hadoop生態系統的mahout推薦和聚類分析（1）

簡介 hadoop是Apache旗下的一個開源分散式計算平臺，在分散式環境下為使用者提供處理海量資料的能力。 mahout是hadoop下的一個子專案，主要用於推薦、分類和聚類分析一、推薦關於推薦的演算法有很多，本次主要介紹協同過濾演算法。（1）基於使用者的協

大數據入門第十九天——推薦系統與mahout（一）入門與概述

tps font 解決技術分享 tar nbsp mage cnblogs clas 一、推薦系統概述　　為了解決信息過載和用戶無明確需求的問題，找到用戶感興趣的物品，才有了個性化推薦系統。其實，解決信息過載的問題，代表性的解決方案是分類目錄和搜索引擎，如hao123

基於HTTP協議，以JSON為資料互動格式的RESTful API。

向Elasticsearch發出的請求的組成部分與其他普通的HTTP請求是一樣的： curl -X<VERB> '<PROTOCOL>://<HOST>/<PORT>?<QUERY_STRING>' -d '<

以申購單為例項，講解Jquery動態刪減行,新增行新增滑鼠事件，子視窗與父視窗傳值，自動計算金額，及輸入值的驗證，前臺資料批量提交到後臺action

最近在為公司做一個小型ERP，其中有一個申購模組，公司需求大概：新建申購單，新建時新增要申購的物料資訊。輸入每樣物料的申購數量，預計價格，前臺自動計算總價。設計需求大概：申購單應可以動態增減物料資訊。每條物料資訊應驗證不可重複。大概就是這些。本人剛剛畢業，參考網上資料後，

ArcGIS自定義座標系統(以Albers為例)

對於空間地理資料來說，座標系統是十分重要的，座標系統不但規定了地圖資料的單位，還規定了起始緯線、中央經線以及偏移等引數，沒有正確的座標系統地理空間資料就失去了意義。在ArcGIS中，預定義了許多常用的座標系統，像北京54、西安80等座標系統，由於北京54和西安80都是高斯

下載基於大數據技術推薦系統實戰教程(Spark ML Spark Streaming Kafka Hadoop Mahout Flume Sqoop Redis)

大數據技術推薦系統推薦系統實戰地址:http://pan.baidu.com/s/1c2tOtwc 密碼:yn2r82課高清完整版，轉一播放碼。互聯網行業是大數據應用最前沿的陣地，目前主流的大數據技術，包括 hadoop，spark等，全部來自於一線互聯網公司。從應用角度講，大數據在互聯網領域主

基於使用者的協同過濾（user-based CF）推薦系統【2】

這一篇是緊跟著上一篇基於使用者的協同過濾（user-based CF）推薦系統【1】的，這一篇只是把計算相似度的方法換成了餘弦相似度，當然最後計算評分的公式也就變了。下面只把有變化的那部分程式碼貼出來。

基於Mahout的電影推薦系統

參考資料： 1 Mahout介紹 Apache Mahout 是 Apache Software Foundation（ASF）旗下的一個開源專案，提供一些可擴充套件的機器學習領域經典演算法的實現，旨在幫助開發人員更加方便快捷地建立智慧應用程式。經典演算法包括聚類、分類、協同

基於Apache Mahout的電影推薦系統

基於使用者的推薦結果：工程目錄： 1.資料庫連線不上，總是報錯。（注：mysql的連線jar包也匯入了，版本也換過，還是報錯，用的是tomcat6.0），之後換了tomcat7.0無此報錯。 o

scala應用-基於user協同過濾的推薦系統

以下是一個只用scala語言開發的推薦系統，可以參考一下，這個能執行一些小資料集，當然可以改造成多執行緒，實踐中表明，百M級別多執行緒和分散式的相同配置的機器在運算上並沒有很大的時間上的差別。這個要研究scala原始碼的執行緒池物件（和java的很類似）。 S

基於Mahout的電影推薦系統（MVC架構）

參考資料： 1 Mahout介紹 Apache Mahout 是 Apache Software Foundation（ASF）旗下的一個開源專案，提供一些可擴充套件的機器學習領域經典演算法的實現，旨在幫助開發人員更加方便快捷地建立智慧應用程式。經典演算法包括聚

Music Recommendation System with User-based and Item-based Collaborative Filtering Technique(使用基於用戶及基於物品的協同過濾技術的音樂推薦系統)【更新】

effect 方向流動建議 comm 時代歌曲 .net man 摘要: 大數據催生了互聯網，電子商務，也導致了信息過載。信息過載的問題可以由推薦系統來解決。推薦系統可以提供選擇新產品（電影，音樂等）的建議。這篇論文會介紹一個音樂推薦系統，他會根據用戶的歷史行為和口味

基於user的推薦系統--以Mahout為例項

基於user的推薦系統--以Mahout為例項

基於hadoop生態系統的mahout推薦和聚類分析（1）

大數據入門第十九天——推薦系統與mahout（一）入門與概述

基於HTTP協議，以JSON為資料互動格式的RESTful API。

以申購單為例項，講解Jquery動態刪減行,新增行新增滑鼠事件，子視窗與父視窗傳值，自動計算金額，及輸入值的驗證，前臺資料批量提交到後臺action

ArcGIS自定義座標系統(以Albers為例)

下載基於大數據技術推薦系統實戰教程(Spark ML Spark Streaming Kafka Hadoop Mahout Flume Sqoop Redis)

基於使用者的協同過濾（user-based CF）推薦系統【2】

基於Mahout的電影推薦系統

基於Apache Mahout的電影推薦系統

scala應用-基於user協同過濾的推薦系統

基於Mahout的電影推薦系統（MVC架構）

Music Recommendation System with User-based and Item-based Collaborative Filtering Technique(使用基於用戶及基於物品的協同過濾技術的音樂推薦系統)【更新】

個性化推薦系統原理介紹（基於內容過濾／協同過濾／關聯規則／序列模式）

【推薦系統實戰】：C++實現基於用戶的協同過濾（UserCollaborativeFilter）

推薦系統(recommender systems):預測電影評分--構造推薦系統的一種方法：基於內容的推薦

以rpm為後端及以yum為前端工具的程序包管理器在Linux發行版系統centos中的使用

推薦系統-03-簡單基於用戶的推薦

基於任意深度學習+樹狀全庫搜索的新一代推薦系統

基於墨刀設計的精美視頻推薦系統

基於user的推薦系統--以Mahout為例項

相關推薦