Surprise庫的相關實踐（推薦系統）

阿新 • • 發佈：2019-01-09

from surprise import KNNBasic,SVD
from surprise import Dataset
from surprise import evaluate, print_perf
# http://surprise.readthedocs.io/en/stable/index.html
# http://files.grouplens.org/datasets/movielens/ml-100k-README.txt

# Load the movielens-100k dataset (download it if needed),
# and split it into 3 folds for cross-validation.
data = Dataset.load_builtin('ml-100k')
data.split(n_folds=3)

# We'll use the famous KNNBasic algorithm.
algo = KNNBasic()

# Evaluate performances of our algorithm on the dataset.
perf = evaluate(algo, data, measures=['RMSE', 'MAE'])

print_perf(perf)

列印結果：

Evaluating RMSE, MAE of algorithm KNNBasic.

------------
Fold 1
Computing the msd similarity matrix...
Done computing similarity matrix.
RMSE: 0.9867
MAE:  0.7792
------------
Fold 2
Computing the msd similarity matrix...
Done computing similarity matrix.
RMSE: 0.9884
MAE:  0.7811
------------
Fold 3
Computing the msd similarity matrix...
Done computing similarity matrix.
RMSE: 0.9896
MAE:  0.7826
------------
------------
Mean RMSE: 0.9883
Mean MAE : 0.7810
------------
------------
        Fold 1  Fold 2  Fold 3  Mean    
RMSE    0.9867  0.9884  0.9896  0.9883  
MAE     0.7792  0.7811  0.7826  0.7810

from surprise import GridSearch

param_grid = {'n_epochs': [5, 10], 'lr_all': [0.002, 0.005],
              'reg_all': [0.4, 0.6]}
grid_search = GridSearch(SVD, param_grid, measures=['RMSE', 'FCP'])
data = Dataset.load_builtin('ml-100k')
data.split(n_folds=3)

grid_search.evaluate(data)

列印結果：

Running grid search for the following parameter combinations:
{'n_epochs': 5, 'lr_all': 0.002, 'reg_all': 0.4}
{'n_epochs': 5, 'lr_all': 0.002, 'reg_all': 0.6}
{'n_epochs': 5, 'lr_all': 0.005, 'reg_all': 0.4}
{'n_epochs': 5, 'lr_all': 0.005, 'reg_all': 0.6}
{'n_epochs': 10, 'lr_all': 0.002, 'reg_all': 0.4}
{'n_epochs': 10, 'lr_all': 0.002, 'reg_all': 0.6}
{'n_epochs': 10, 'lr_all': 0.005, 'reg_all': 0.4}
{'n_epochs': 10, 'lr_all': 0.005, 'reg_all': 0.6}

Resulsts:
{'n_epochs': 5, 'lr_all': 0.002, 'reg_all': 0.4}
{'RMSE': 0.9969328477745982, 'FCP': 0.683368400695696}
----------
{'n_epochs': 5, 'lr_all': 0.002, 'reg_all': 0.6}
{'RMSE': 1.0033151605930943, 'FCP': 0.6867249347580507}
----------
{'n_epochs': 5, 'lr_all': 0.005, 'reg_all': 0.4}
{'RMSE': 0.9734942565850515, 'FCP': 0.6940454873982795}
----------
{'n_epochs': 5, 'lr_all': 0.005, 'reg_all': 0.6}
{'RMSE': 0.9823131855683238, 'FCP': 0.6944827981040061}
----------
{'n_epochs': 10, 'lr_all': 0.002, 'reg_all': 0.4}
{'RMSE': 0.977887292257368, 'FCP': 0.6923914815948694}
----------
{'n_epochs': 10, 'lr_all': 0.002, 'reg_all': 0.6}
{'RMSE': 0.9862324957086702, 'FCP': 0.69290504024308}
----------
{'n_epochs': 10, 'lr_all': 0.005, 'reg_all': 0.4}
{'RMSE': 0.9636592234524777, 'FCP': 0.6981147216456689}
----------
{'n_epochs': 10, 'lr_all': 0.005, 'reg_all': 0.6}
{'RMSE': 0.9734215277751971, 'FCP': 0.6982590050003091}
----------

# best RMSE score
print(grid_search.best_score['RMSE'])

# combination of parameters that gave the best RMSE score
print(grid_search.best_params['RMSE'])


# best FCP score
print(grid_search.best_score['FCP'])


# combination of parameters that gave the best FCP score
print(grid_search.best_params['FCP'])

列印結果：

0.9636592234524777
{'n_epochs': 10, 'lr_all': 0.005, 'reg_all': 0.4}
0.6982590050003091
{'n_epochs': 10, 'lr_all': 0.005, 'reg_all': 0.6}

import pandas as pd  

results_df = pd.DataFrame.from_dict(grid_search.cv_results)
results_df

列印結果：

params	scores
0	{'n_epochs': 5, 'lr_all': 0.002, 'reg_all': 0.4}	{'RMSE': 0.9969328477745982, 'FCP': 0.68336840...
1	{'n_epochs': 5, 'lr_all': 0.002, 'reg_all': 0.6}	{'RMSE': 1.0033151605930943, 'FCP': 0.68672493...
2	{'n_epochs': 5, 'lr_all': 0.005, 'reg_all': 0.4}	{'RMSE': 0.9734942565850515, 'FCP': 0.69404548...
3	{'n_epochs': 5, 'lr_all': 0.005, 'reg_all': 0.6}	{'RMSE': 0.9823131855683238, 'FCP': 0.69448279...
4	{'n_epochs': 10, 'lr_all': 0.002, 'reg_all': 0.4}	{'RMSE': 0.977887292257368, 'FCP': 0.692391481...
5	{'n_epochs': 10, 'lr_all': 0.002, 'reg_all': 0.6}	{'RMSE': 0.9862324957086702, 'FCP': 0.69290504...
6	{'n_epochs': 10, 'lr_all': 0.005, 'reg_all': 0.4}	{'RMSE': 0.9636592234524777, 'FCP': 0.69811472...
7	{'n_epochs': 10, 'lr_all': 0.005, 'reg_all': 0.6}	{'RMSE': 0.9734215277751971, 'FCP': 0.6982590

from __future__ import (absolute_import, division, print_function,
                        unicode_literals)
import os
import io

from surprise import KNNBaseline
from surprise import Dataset


def read_item_names():


    file_name = ('u.item')
    rid_to_name = {}
    name_to_rid = {}
    with io.open(file_name, 'r', encoding='ISO-8859-1') as f:
        for line in f:
            line = line.split('|')
            rid_to_name[line[0]] = line[1]
            name_to_rid[line[1]] = line[0]

    return rid_to_name, name_to_rid



data = Dataset.load_builtin('ml-100k')
trainset = data.build_full_trainset()#轉換成最初標準的矩陣形式
sim_options = {'name': 'pearson_baseline', 'user_based': False}
algo = KNNBaseline(sim_options=sim_options)
algo.train(trainset)

rid_to_name, name_to_rid = read_item_names()

toy_story_raw_id = name_to_rid['Now and Then (1995)']#先找電影的Id
toy_story_raw_id

列印結果：

1053'

toy_story_inner_id = algo.trainset.to_inner_iid(toy_story_raw_id)
toy_story_inner_id#在矩陣中的ID

列印結果：

toy_story_neighbors = algo.get_neighbors(toy_story_inner_id, k=5)#找離當前電影最近的5個電影
toy_story_neighbors

列印結果：

[291, 82, 366, 528, 179]

toy_story_neighbors = (algo.trainset.to_raw_iid(inner_id)
                       for inner_id in toy_story_neighbors)#先轉回電影的Id
toy_story_neighbors = (rid_to_name[rid]
                       for rid in toy_story_neighbors)#再轉回電影的名字

print()
print('The 10 nearest neighbors of Toy Story are:')
for movie in toy_story_neighbors:
    print(movie)

列印結果：

The 10 nearest neighbors of Toy Story are:
While You Were Sleeping (1995)
Batman (1989)
Dave (1993)
Mrs. Doubtfire (1993)
Groundhog Day (1993)

Surprise庫的相關實踐（推薦系統）

from surprise import KNNBasic,SVD from surprise import Dataset from surprise import evaluate, print_perf # http://surprise.readthedocs.io/

MySQL：主從庫配置記錄（Windows系統）

伺服器配置：阿里雲 2G 1M頻寬作業系統：winow server 2012 首先確保所有需要的埠已經在平臺上添加了安全組規則，打開了埠。部署目的：主從庫實現同步以及讀寫分離主資料庫用於對資料庫進行修改，

cold-start problem（推薦系統）

冷啟動是在群體推薦系統中一個常見的問題。簡單來說它是推薦過程中沒有足夠的資訊來對使用者進行可靠的推薦。推薦系統是基於使用者和產品的資訊和互動，對資訊進行過濾並達到向用戶精準推薦其感興趣的某些資訊的一種技術。推薦系統基於使用者的個人資料，人—物互動過程及其條目的特徵等進行推薦。

大型網站系統及java中介軟體實踐（搜尋系統）

一：爬蟲問題：二：倒排索引： 2.1 ：正排索引例項圖正排索引就是通過整個文章獲取其關鍵字，然後進行操作，而倒排索引正好相反 2.2：倒排

基於內容的推薦演算法（推薦系統）（二）

距離上次更新已經不知道有多久了，因為過幾日就是中期答辯了，為了不太監開始堅持把這個專案往後做一做。這次我們要做的是什麼呢，要先搭建整個開發環境，目前用到的如下：mysql,idea,IKAnalyzer2012_u6(一個開源的分詞包，完全夠用了) 這次我計劃先完成最簡單

基於內容的推薦演算法（推薦系統）（三）

因為要報賬，趕著做出來一個用來展示的網站，用來申請軟體著作權然後拿到發票趕緊報銷去。所以用了幾個小時的時間弄出來一個醜不拉幾的網站，還好之前web作業做過一部分。現在的話是這樣弄得：整體架構如下用了IDEA開發，基於Java EE，tomcat和MySQL（

Python3.6（windows系統）安裝libxml2庫

libxml2 ima text pos bubuko bsp 執行 lib 技術 Python3.x（windows系統）安裝libxml2庫 cmd安裝命令： pip install lxml 執行結果：再執行命令： pip install virtualen

Python3.6（windows系統）安裝requests庫

-a 結果 request info 3.x .com mage python class Python3.x（windows系統）安裝requests庫 cmd命令： pip install requests 執行結果： Python3.6（windows系統）安

基於 MySQL 的數據庫實踐（更名運算）

AI 方法希望 log Go 最低工資 HERE 笛卡爾 clas 考慮下面的查詢查詢。 select name, course_id from instructor, teaches where instructor.ID = teaches.ID; 它的結果是一個具有

阿里雲Linux系統配置python3-虛擬環境-mysql --踩坑實踐（Ubuntu系統轉centOS7）

序言：個人使用阿里雲的伺服器，Ubuntu系統時在建立虛擬環境處卡住，多次修改無果後改用CentOS系統配置環境成功，但是其中也是嘗試多次，這裡就把自己找的能夠配置成功的方法整理起來，以備後續有相關配置時，能夠快速應對。一、Ubuntu系統配置（mysql --virtualenv） 1. my

文章翻譯：Recommending items to more than a billion people（面向十億級用戶的推薦系統）

red 這不得到放大條件 mage 上界出了 color Web上數據的增長使得在完整的數據集上使用許多機器學習算法變得更加困難。特別是對於個性化推薦問題，數據采樣通常不是一種選擇，需要對分布式算法設計進行創新，以便我們能夠擴展到這些不斷增長的數據集。協同過濾(C

第九周（異常發現+推薦系統）-【機器學習-Coursera Machine Learning-吳恩達】

目錄異常檢測多元高斯分佈的異常檢測推薦系統 1 異常檢測 1）正態分佈或高斯分佈： 2）異常檢測演算法： 3）異常檢

Recsys2018 總結（推薦系統最新技術、應用和方向）32篇論文解讀

本文對10月2-7號在加拿大渥太華舉辦的Recsys的32篇論文做了整理和歸納，總結出了目前推薦系統最新技術應用和方向。並對每一篇文章做了粗略的講解。我打算從以下四個方面來講述這32篇論文。首先呢，我會概述一下大會論文反映的一些情況。然後分析一下

斯坦福大學機器學習筆記——推薦系統（協同過濾、低秩分解、推薦系統）

這個部落格讓我們來討論一下推薦系統，首先我們來討論一下為什麼學習推薦系統： 1. 推薦系統是機器學習中的一個重要應用，它已經用於很多企業中，比如淘寶、今日頭條、亞馬遜等。它們會根據你的瀏覽記錄，當你再

基於Spark的電影推薦系統（推薦系統~2）

第四部分-推薦系統-資料ETL 本模組完成資料清洗，並將清洗後的資料load到Hive資料表裡面去前置準備： spark +hive vim $SPARK_HOME/conf/hive-site.xml <?xml version="1.0"?> <?xml

Surprise庫的相關實踐（推薦系統）

Surprise庫的相關實踐（推薦系統）

MySQL：主從庫配置記錄（Windows系統）

cold-start problem（推薦系統）

大型網站系統及java中介軟體實踐（搜尋系統）

基於內容的推薦演算法（推薦系統）（二）

基於內容的推薦演算法（推薦系統）（三）

推薦系統實踐（項亮）— 第3章推薦系統冷啟動問題

推薦系統實踐（項亮）— 第5章利用上下文資訊

推薦系統實踐（項亮）— 第7章推薦系統例項

推薦系統實踐（項亮）— 後記

Python3.6（windows系統）安裝libxml2庫

Python3.6（windows系統）安裝requests庫

基於 MySQL 的數據庫實踐（更名運算）

阿里雲Linux系統配置python3-虛擬環境-mysql --踩坑實踐（Ubuntu系統轉centOS7）

推薦丨工具-電腦一鍵截圖+OCR文字識別工具--天若OCR（windows系統）

文章翻譯：Recommending items to more than a billion people（面向十億級用戶的推薦系統）

第九周（異常發現+推薦系統）-【機器學習-Coursera Machine Learning-吳恩達】

Recsys2018 總結（推薦系統最新技術、應用和方向）32篇論文解讀

斯坦福大學機器學習筆記——推薦系統（協同過濾、低秩分解、推薦系統）

基於Spark的電影推薦系統（推薦系統~2）

Surprise庫的相關實踐（推薦系統）

相關推薦